テクノロジー注目度 74

Gemini 3.5 Live Translateが発表：70以上の言語をサポートする自然な音声通訳機能

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

Googleは、最新のオーディオモデル「Gemini 3.5 Live Translate」を発表し、ライブでの音声対話を通訳する機能を大幅に進化させました。この新モデルは、従来の逐次的なシステムとは異なり、話し手が発言を終えるのを待つことなく、連続的かつ流暢な翻訳音声を生成することが最大の特徴です。これにより、不自然な間（ポーズ）がなく、会話のテンポを保ちながら、話者からわずか数秒遅れでリアルタイムに通訳を提供します。

本モデルは70以上の言語に対応し、話し手のイントネーション、ペース、ピッチといったニュアンスを保持した自然な音声翻訳を実現しています。この機能の展開は段階的です。まず開発者向けにはGemini Live APIおよびGoogle AI Studioを通じてパブリックプレビューが開始され、企業向けには今月からGoogle Meetでプライベートプレビューが始まります。一般ユーザー向けには、AndroidおよびiOS版のGoogle翻訳アプリを通じて世界的にロールアウトされます。

特にGoogle Meetでは、これまでの5言語という制限から大幅に改善され、70以上の言語に対応し、さらに2,000以上の言語組み合わせでの会話が可能になります。また、Androidユーザー向けには「リスニングモード」が導入され、ヘッドフォンなしでも電話の受話器から直接翻訳音声を聞くことが可能となり、プライベートな通訳利用シーンを想定しています。

開発者プラットフォーム（Agora, LiveKitなど）もGemini Live APIを利用して多言語対応のボイス翻訳アプリを容易に構築できるようになり、Grabのようなパートナー企業では既にドライバーと旅行者の間でリアルタイムの多言語コミュニケーションテストが行われています。また、生成される全ての音声には「SynthID」という目に見えない透かし（ウォーターマーク）が埋め込まれ、AI生成コンテンツの信頼性と透明性を確保しています。

背景

機械翻訳技術はGoogleの初期から研究されてきた分野であり、当初は単語単位や文章単位での処理が主流でした。しかし、実際の会話における「流暢さ」と「リアルタイム性」の両立が課題となっており、今回のGemini 3.5 Live Translateは、この長年の課題を解決する画期的な進歩です。

重要用語解説

Gemini 3.5 Live Translate: Googleが開発した最新のオーディオモデル。ライブでの音声対話に特化し、70以上の言語に対応しながら、自然なイントネーションと連続性を保ったリアルタイム通訳を実現する技術。
SynthID: AIによって生成された全ての音声データに埋め込まれる目に見えない透かし（ウォーターマーク）。AIコンテンツの出所を追跡し、誤情報拡散を防ぐための安全対策。
Gemini Live API: 開発者がGoogleの高性能なAIモデル（Gemini）の機能を組み込むためのインターフェース。ボイス翻訳のような複雑なリアルタイム処理を外部アプリに容易に実装できる基盤を提供する。

今後の影響

この技術は、国際的なビジネス会議、教育現場、旅行など多岐にわたる分野でコミュニケーションの障壁を劇的に低減させます。特に「リスニングモード」や高い言語対応数は、これまで通訳サービスが必要だった場面での利用機会を飛躍的に拡大し、グローバルな社会活動を加速させる可能性があります。

Information Sources:

https://deepmind.google/blog/fluid-natural-voice-translation-with-gemini-35-live-translate/