テクノロジー注目度 61

Google、次世代音声AI「Gemini 3.1 Flash TTS」を発表：自然言語による表現制御が可能に

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

米Googleは、自然な音声を生成するAIテキスト読み上げモデル「Gemini 3.1 Flash TTS」（Text-to-Speech）を4月15日（現地時間）に発表しました。このモデルは、開発者向けに「Gemini API」や「Google AI Studio」で、企業向けには「Vertex AI」を通じてプレビュー提供されています。また、Google Workspaceユーザーは「Google Vids」から一部機能を利用可能です。

最大の特徴は、新たに導入された「音声タグ」機能です。これにより、「ゆっくり話す」「ささやくように」といった自然言語のコマンドをテキストに直接埋め込むことで、声のスタイル、話すペース、表現方法を極めて細かく制御できます。この機能により、日本語を含む70以上の言語で、複数話者による没入感のある会話劇や、表現力豊かな音声体験の創出が可能になるとされています。

性能面では、人間のブラインドテストによる「Artificial Analysis TTS」リーダーボードで1211という高いEloスコアを記録し、高品質と低コストのバランスが優れている点から「most attractive quadrant」に位置づけられるなど、高い評価を得ています。安全性対策として、生成されるすべての音声には電子透かし技術「SynthID」が適用され、AI生成コンテンツであることを識別し、誤情報拡散の防止に役立てられます。さらに、GoogleのAI原則に基づき、開発段階から社内チームによる安全性評価やレッドチーム演習も実施されています。

背景

AI音声合成技術（TTS）は、近年急速に進化しており、単なるテキスト読み上げから、感情や話者の個性を再現するレベルに達しています。Googleは、この分野の最先端を維持するため、より自然で制御性の高い次世代モデルの発表を行いました。

重要用語解説

Gemini 3.1 Flash TTS: Googleが開発した次世代のAIテキスト読み上げモデル。自然な音声を生成し、自然言語による詳細な表現制御を可能にしたのが特徴。
音声タグ: テキスト内に「ゆっくり話す」などの自然言語コマンドを埋め込むことで、声のスタイルや話すペースを細かく制御する新機能。
SynthID: AIが生成した音声データに埋め込まれる電子透かし技術。音声がAI生成物であることを証明し、誤情報対策に利用される。

今後の影響

本モデルの登場により、AIを活用した音声コンテンツ制作のハードルが大幅に下がり、教育、エンタメ、メディアなど多岐にわたる分野での応用が期待されます。特に表現の細かな制御が可能になったことで、より没入感の高い、プロフェッショナルな音声コンテンツの制作が加速すると予想されます。

Information Sources:

https://www.itmedia.co.jp/aiplus/articles/2604/16/news090.html