テクノロジー注目度 73

次世代AI音声合成モデル「Gemini 3.1 Flash TTS」を発表：表現力と制御性を大幅に向上

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

Googleは、最新のテキスト読み上げ（TTS）モデル「Gemini 3.1 Flash TTS」を発表しました。このモデルは、表現力、制御性、および音質が大幅に向上した次世代のAI音声合成技術であり、開発者、企業、一般ユーザーが次世代のAI音声アプリケーションを構築することを可能にします。

導入は本日より開始され、開発者はGemini APIおよびGoogle AI Studioを通じて、企業はVertex AIを通じて、WorkspaceユーザーはGoogle Vidsを通じてプレビュー版として利用可能です。このモデルは、全体的な音声品質が向上し、これまでで最も自然で表現力豊かなモデルであるとされています。特に、業界のベンチマークであるArtificial AnalysisのTTSリーダーボードにおいて、1,211という高いEloスコアを達成しました。

主な新機能として、「オーディオタグ」の導入が挙げられます。これは、自然言語のコマンドをテキスト入力に埋め込むことで、声のスタイル、ペース、発音などを直感的に制御できる機能です。これにより、開発者は「演出家の椅子」に座るような高いレベルの制御性を手に入れ、以下の高度な表現を実現できます。

1. **シーンディレクション**: 環境設定や具体的な対話指示を与えることで、キャラクターが「キャラクターとして」振る舞い、複数のターンにわたって自然に反応する世界観を構築できます。

2. **話者レベルの特定性**: ユニークな音声プロファイル（Audio Profiles）でキャラクターを設定し、ディレクターズノートを用いてペース、トーン、アクセントを切り替えることが可能です。さらに、インラインタグを使用することで、文の途中で表現を変化させることができます。

3. **シームレスなエクスポート**: 完成したパフォーマンスのパラメータは、Gemini APIのコードとしてエクスポート可能であり、様々なプロジェクトやプラットフォームで一貫性のある認識可能な声を保証します。

また、Gemini 3.1 Flash TTSは70以上の言語に対応し、グローバルな規模でのローカライズされた表現豊かな音声体験を提供します。さらに、生成されるすべての音声には、誤情報拡散を防ぐための透かし（ウォーターマーク）としてSynthIDが組み込まれています。

背景

AI音声合成（TTS）技術は、近年急速に進化し、単なるテキスト読み上げから、感情や文脈を理解した自然な音声生成へと発展しています。本ニュースは、Googleがこの分野の最新の進展を示すものであり、特に「制御性」と「表現力」の向上に焦点を当てています。

重要用語解説

Gemini 3.1 Flash TTS: Googleが発表した最新のテキスト読み上げモデル。表現力、制御性、音質の向上を実現し、開発者に高度な音声生成機能を提供する。
オーディオタグ: テキスト入力に自然言語のコマンドを埋め込むことで、声のスタイル、ペース、トーンなどを細かく制御するための新しい機能。
SynthID: AIが生成したコンテンツであることを示す、音声に組み込まれる目に見えない透かし（ウォーターマーク）。誤情報拡散の防止に役立つ。

今後の影響

本モデルの登場により、AIを活用した音声コンテンツの制作プロセスが劇的に変化します。ゲーム、教育、メディアなど多岐にわたる分野で、より没入感が高く、キャラクターに深みのある音声体験の提供が可能となり、コンテンツ制作の品質基準を引き上げると予想されます。

Information Sources:

https://deepmind.google/blog/gemini-3-1-flash-tts-the-next-generation-of-expressive-ai-speech/