Google、拡散型テキスト生成モデル「DiffusionGemma」を公開:ローカルGPUで高速推論を実現
米Googleは2026年6月10日(現地時間)、オープンな実験的AIモデル「DiffusionGemma」を発表しました。これは、画像生成に用いられる「diffusion」(拡散)の手法をテキスト生成に応用したものです。
従来の主流LLMがトークンを一つずつ順番に生成する「自己回帰型」であるのに対し、DiffusionGemmaはランダムなプレースホルダーから出発し、256トークンのブロックを一括で並列生成します。これにより、デコードのボトルネックがメモリ帯域幅から演算能力へとシフトし、大幅な高速化を実現しています。
このモデルは、Googleが昨年の「Google I/O」で発表した研究成果「Gemini Diffusion」をオープンモデルファミリー「Gemma 4」に統合したものです。構造は260億パラメータのMoE(Mixture of Experts)を採用し、推論時には38億パラメータのみが活性化します。量子化すれば18GBのVRAMに収まるため、ハイエンドなコンシューマー向けGPUでも動作可能です。
性能面では、NVIDIAの「H100」単体で毎秒1000トークン以上、「GeForce RTX 5090」などのコンシューマー向けGPUで毎秒700トークン以上の生成速度を示すなど、圧倒的な高速処理能力を実証しています。Googleは本モデルを「実験的」と位置づけ、特にローカル環境での速度重視の開発者や研究者をターゲットとしています。
ただし、Googleは出力品質については標準的なGemma 4の方が優れているとし、最高品質が求められる用途には引き続きGemma 4の使用を推奨しています。一方で、高速性が求められ、クラウドに依存しないローカルなAIシステム構築を目指す開発者にとって、DiffusionGemmaは大きな選択肢となることが期待されます。
背景
大規模言語モデル(LLM)の進化に伴い、処理速度と精度が重要な課題となっています。従来の自己回帰型モデルは高精度ですが、トークンを逐次生成するため遅延が発生しがちでした。本ニュースは、画像生成AIで成功した「拡散(Diffusion)」技術をテキスト生成に応用することで、この速度のボトルネックを解消しようとする試みです。
重要用語解説
- 自己回帰型: LLMがトークンを左から右へ一つずつ順番に予測・生成する従来の仕組み。精度は高いものの、処理速度が遅くなる傾向があります。
- 拡散(Diffusion): 主に画像生成AIで用いられる手法。ノイズから徐々に画像を復元していくプロセスを指し、本モデルではテキスト生成に応用されています。
- MoE (Mixture of Experts): 大規模なモデル構造の一つ。全パラメータの一部のみを活性化させることで、計算効率を維持しながら高い性能を実現する技術です。
今後の影響
ローカルGPUでのAI推論の常識を変える可能性があり、エッジデバイスや個人開発者による高速なAIアプリケーションの実装が加速すると予想されます。ただし、品質と速度のトレードオフがあるため、用途に応じたモデル選定が重要となります。