テクノロジー 注目度 61

Google、即時翻訳モデル「Gemini 3.5 Live Translate」を発表:70言語以上に対応し、各種プラットフォームに実装

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

Googleは2026年6月9日、画期的な音声翻訳モデル「Gemini 3.5 Live Translate」を発表しました。このモデルは、従来の待機型翻訳とは異なり、発話が終わるのを待たずに音声ストリームを継続的に処理し、ほぼリアルタイムで音声を別の言語に翻訳することが可能です。日本語を含む70以上の言語に対応し、単なるテキスト変換に留まらず、話者の抑揚(イントネーション)、間(ポーズ)、ピッチといった自然な話し方の特徴を保持した高品質な音声生成が最大の特長です。

この技術は多岐にわたる分野での活用が計画されています。まず開発者向けには「Gemini Live API」とGoogle AI Studioを通じてパブリックプレビューとして提供され、AgoraやFishjamなどの既存のリアルタイムメディア配信プラットフォームでも基盤を担うことが可能です。配車サービスGrabでは既に試験利用が進んでおり、1000万件以上の音声通話における多言語自動検出と低遅延での正確な翻訳が評価されています。

さらに、音声会議ツールGoogle Meetへの導入も予定されており、対応言語は従来の5言語から70言語以上に拡大し、一つの会議で2000以上の言語組み合わせに対応可能になります。これは2026年6月より一部の法人向けGoogle Workspaceユーザーを対象にプライベートプレビューが開始され、その後後半にかけて広範な展開が見込まれています。

一般ユーザー向けのGoogle翻訳アプリ(iOS/Android)にも実装されます。ヘッドホン接続時には70以上の言語で話者のトーンを反映した翻訳を利用でき、特にAndroid版にはヘッドホン不要で受話口から聞ける「リスニングモード」が追加されます。また、生成される音声にはすべてSynthIDによる電子透かしが組み込まれ、AI生成コンテンツの検出と誤情報防止に役立てられる仕組みも導入されています。

本モデルは2026年6月9日より展開を開始し、開発者向けから順次、企業利用(Google Meet)、そして一般ユーザーへとグローバルに提供される計画です。


背景

AIによるリアルタイム翻訳技術は長年の課題であり、従来のシステムでは発話の区切りを待つため遅延が大きく、会話の流れを途切れさせがちでした。本ニュースは、この「遅延」と「自然さ」という二大課題を解決する画期的なモデルが登場したことを示しており、AIコミュニケーションツールの進化における大きな転換点となります。

重要用語解説

  • Gemini 3.5 Live Translate: Googleが開発した次世代の音声翻訳モデル。発話ストリーム全体を継続的に処理し、低遅延かつ自然な抑揚を保ったリアルタイム翻訳を実現する技術。
  • SynthID: AI生成コンテンツに組み込まれる不可視の電子透かし(ウォーターマーク)。AIによる誤情報や偽情報の拡散を防ぎ、出所を追跡可能にするための仕組み。
  • Google Meet (法人向け): Googleが提供するオンライン会議ツール。本機能により、従来の言語制限を超え、大規模な国際会議でのシームレスな多言語通訳が可能になる。

今後の影響

この技術は、グローバルコミュニケーションのあり方を根本的に変革します。特にビジネスや教育分野において、言語の壁を劇的に低減させ、国境を越えたリアルタイムな協業を可能にします。また、電子透かしの導入はAI倫理的な側面からも注目され、情報信頼性の確保に貢献すると予想されます。