次世代AI音声合成モデル「Gemini 3.1 Flash TTS」を発表:表現力と制御性を大幅に向上
Googleは、最新のテキスト読み上げ(TTS)モデル「Gemini 3.1 Flash TTS」を発表しました。このモデルは、表現力、制御性、および音質が大幅に向上した次世代のAI音声合成技術であり、開発者、企業、一般ユーザーが次世代のAI音声アプリケーションを構築することを可能にします。
導入は本日より開始され、開発者はGemini APIおよびGoogle AI Studioを通じて、企業はVertex AIを通じて、WorkspaceユーザーはGoogle Vidsを通じてプレビュー版として利用可能です。このモデルは、全体的な音声品質が向上し、これまでで最も自然で表現力豊かなモデルであるとされています。特に、業界のベンチマークであるArtificial AnalysisのTTSリーダーボードにおいて、1,211という高いEloスコアを達成しました。
主な新機能として、「オーディオタグ」の導入が挙げられます。これは、自然言語のコマンドをテキスト入力に埋め込むことで、声のスタイル、ペース、発音などを直感的に制御できる機能です。これにより、開発者は「演出家の椅子」に座るような高いレベルの制御性を手に入れ、以下の高度な表現を実現できます。
1. **シーンディレクション**: 環境設定や具体的な対話指示を与えることで、キャラクターが「キャラクターとして」振る舞い、複数のターンにわたって自然に反応する世界観を構築できます。
2. **話者レベルの特定性**: ユニークな音声プロファイル(Audio Profiles)でキャラクターを設定し、ディレクターズノートを用いてペース、トーン、アクセントを切り替えることが可能です。さらに、インラインタグを使用することで、文の途中で表現を変化させることができます。
3. **シームレスなエクスポート**: 完成したパフォーマンスのパラメータは、Gemini APIのコードとしてエクスポート可能であり、様々なプロジェクトやプラットフォームで一貫性のある認識可能な声を保証します。
また、Gemini 3.1 Flash TTSは70以上の言語に対応し、グローバルな規模でのローカライズされた表現豊かな音声体験を提供します。さらに、生成されるすべての音声には、誤情報拡散を防ぐための透かし(ウォーターマーク)としてSynthIDが組み込まれています。
背景
AI音声合成(TTS)技術は、近年急速に進化し、単なるテキスト読み上げから、感情や文脈を理解した自然な音声生成へと発展しています。本ニュースは、Googleがこの分野の最新の進展を示すものであり、特に「制御性」と「表現力」の向上に焦点を当てています。
重要用語解説
- Gemini 3.1 Flash TTS: Googleが発表した最新のテキスト読み上げモデル。表現力、制御性、音質の向上を実現し、開発者に高度な音声生成機能を提供する。
- オーディオタグ: テキスト入力に自然言語のコマンドを埋め込むことで、声のスタイル、ペース、トーンなどを細かく制御するための新しい機能。
- SynthID: AIが生成したコンテンツであることを示す、音声に組み込まれる目に見えない透かし(ウォーターマーク)。誤情報拡散の防止に役立つ。
今後の影響
本モデルの登場により、AIを活用した音声コンテンツの制作プロセスが劇的に変化します。ゲーム、教育、メディアなど多岐にわたる分野で、より没入感が高く、キャラクターに深みのある音声体験の提供が可能となり、コンテンツ制作の品質基準を引き上げると予想されます。