Published on

Gemini Liveアップグレード — リアルタイム音声翻訳とProactive AudioでAIが耳になる

会議中に外国語で話す人がいる。同時通訳者を使えばコストが高く、後で翻訳原稿を受け取れば流れが途切れる。このオーソドックスな問題にGoogleが再び取り組んだ。

2026年5月、GoogleはGemini 2.5 Flash Native Audioの大規模アップデートを発表した。と2つの機能が際立つ。リアルタイム音声-音声翻訳(Live Speech-to-Speech Translation)Proactive Audioだ。単なる機能追加ではなく、AIが音声を扱う方式のパラダイムが変わった。


リアルタイム音声翻訳:言葉だけでなく声の魂を届ける

Gemini Liveリアルタイム音声翻訳

従来の翻訳アプリはこう動く。音声をテキストに変換し、テキストを翻訳し、翻訳されたテキストを再び音声に変換する。3段階を経る間に時間がかかり、重要なものが失われる。話者のトーン、アクセント、感情、速度感——言葉が伝える意味の半分以上を占めるものだ。

GeminiのLive Speech-to-Speech Translationは異なるアプローチを取る。

イヤフォンをつけて会話を始めると、相手の声がリアルタイムで翻訳される。核心はトーン・速度・ピッチをそのまま保つという点だ。相手が興奮して早口で話せば、翻訳も同じ速度感で届く。質問するような口調はそのまま耳に届く。単に言葉を置き換えるのではなく、声の質感まで伝えようとする。

24言語、305種類のHD音声に対応。Google AI StudioとVertex AIで利用可能で、Gemini LiveとSearch Liveへの順次展開も進んでいる。


Proactive Audio:自分への発話にのみ反応する

2つ目の機能Proactive Audioはより興味深い概念を持つ。

AI音声アシスタントの固有の問題がある。常に聴いているという点だ。テレビの音、隣の人の会話、環境音——AIはこれらすべてを「自分への発話」と誤解する可能性がある。逆に感度を下げすぎると、本当に必要なときに反応しない。

Proactive Audioはこのジレンマを別の方法で解く。

「モデルはデバイスに向けられたクエリにのみ応答を生成します。デバイスに向けられていないクエリには反応しません。」—Google公式ドキュメント

起動ワードを検知するだけでなく、発話の意図と方向をAIが把握する。自分と会話しているのか、他の人と話しているのかを文脈で判断する。テキスト書き起こしとオーディオ応答の両方を生成するが、関連性があるときのみ有効化される。

現在はPreview段階で、Gemini APIを通じて開発者が先行テストできる。


マルチターン会話品質の向上

今回のアップデートで目立たないが実用的な変化がある。

マルチターン会話の一貫性が大幅に改善された。以前は複数回の会話を続けると、AIが前のやり取りの文脈を見失うケースがあった。 12-25モデルバージョンから、以前のターンの文脈がより安定して維持される。

関数呼び出し(Function Calling)の精度と指示従い(Instruction Following)も向上した。AI音声エージェントを本番サービスに接続する開発者にとって重要な改善だ。


教育での活用可能性

EdTech CEOとして、この2つの機能が教育現場にどう接続するか考えてみた。

リアルタイム翻訳の教育活用:

  • 国際ビデオ授業で生徒が自分の言語で話し、教師がリアルタイムで理解
  • 多言語家族の子どもたちが保護者の母語の授業をリアルタイム翻訳で一緒に聴く
  • 海外交換留学プログラムで言語障壁を下げるツール

Proactive Audioの教育活用:

  • 教室環境でAIアシスタントを起動しつつ、授業中の背景音やおしゃべりには反応せず教師の質問にのみ応答
  • 年少の生徒の自己主導学習環境で、AIが過度に介入せず必要なときだけサポート

語学学習の観点では、リアルタイム翻訳は「理解の補助ツール」と「言語習得の妨げ」の境界線上にある。翻訳なしにその言語に曝されることが言語習得に有効な場合があるためだ。いつ翻訳をオンにしいつオフにするかの判断が、技術的な問題ではなく教育的な選択として重要になる。


技術スペック一覧

項目内容
モデルGemini 2.5 Flash Native Audio(12-25)
対応言語24言語
HDボイス数30種類
翻訳方式音声-音声直接変換(テキスト中間工程を最小化)
保持される要素トーン・速度・ピッチ
Proactive AudioPreview段階・Gemini API開発者優先提供
マルチターン改善以前のターンの文脈保持を強化
Function Calling精度向上

活用のヒント

  1. リアルタイム翻訳を試す: Google AI StudioでLive APIを有効化し、入力/出力言語を設定するとすぐテストできる。

  2. Proactive Audioの有効化: APIの設定で proactiveAudio: true パラメータを指定。現在は開発者向けPreview提供中。

  3. トーン保持の確認法: 同じ文章を冷静なトーンと興奮したトーンで入力してみよう。翻訳結果がどう違うか比較すると、この機能の品質を直感的に理解できる。

  4. 12-25モデルを明示指定: gemini-2.5-flash-native-audio-12-25 を明示的に指定することでマルチターンの改善を体験できる。旧バージョンはアップデート未適用。

  5. Function Callingの活用: 向上した関数呼び出し精度を活かして、音声で内部システムやAPIを呼び出すエージェントを構築しよう。カスタマーサービス、予約、情報照会などの場面で実用的だ。


出典

Gemini Liveアップグレード — リアルタイム音声翻訳とProactive AudioでAIが耳になる | MINSSAM.COM