テクノロジー注目度 69

Google、拡散型テキスト生成モデル「DiffusionGemma」を公開：ローカルGPUで高速推論を実現

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

米Googleは2026年6月10日（現地時間）、オープンな実験的AIモデル「DiffusionGemma」を発表しました。これは、画像生成に用いられる「diffusion」（拡散）の手法をテキスト生成に応用したものです。

従来の主流LLMがトークンを一つずつ順番に生成する「自己回帰型」であるのに対し、DiffusionGemmaはランダムなプレースホルダーから出発し、256トークンのブロックを一括で並列生成します。これにより、デコードのボトルネックがメモリ帯域幅から演算能力へとシフトし、大幅な高速化を実現しています。

このモデルは、Googleが昨年の「Google I/O」で発表した研究成果「Gemini Diffusion」をオープンモデルファミリー「Gemma 4」に統合したものです。構造は260億パラメータのMoE（Mixture of Experts）を採用し、推論時には38億パラメータのみが活性化します。量子化すれば18GBのVRAMに収まるため、ハイエンドなコンシューマー向けGPUでも動作可能です。

性能面では、NVIDIAの「H100」単体で毎秒1000トークン以上、「GeForce RTX 5090」などのコンシューマー向けGPUで毎秒700トークン以上の生成速度を示すなど、圧倒的な高速処理能力を実証しています。Googleは本モデルを「実験的」と位置づけ、特にローカル環境での速度重視の開発者や研究者をターゲットとしています。

ただし、Googleは出力品質については標準的なGemma 4の方が優れているとし、最高品質が求められる用途には引き続きGemma 4の使用を推奨しています。一方で、高速性が求められ、クラウドに依存しないローカルなAIシステム構築を目指す開発者にとって、DiffusionGemmaは大きな選択肢となることが期待されます。

背景

大規模言語モデル（LLM）の進化に伴い、処理速度と精度が重要な課題となっています。従来の自己回帰型モデルは高精度ですが、トークンを逐次生成するため遅延が発生しがちでした。本ニュースは、画像生成AIで成功した「拡散（Diffusion）」技術をテキスト生成に応用することで、この速度のボトルネックを解消しようとする試みです。

重要用語解説

自己回帰型: LLMがトークンを左から右へ一つずつ順番に予測・生成する従来の仕組み。精度は高いものの、処理速度が遅くなる傾向があります。
拡散（Diffusion）: 主に画像生成AIで用いられる手法。ノイズから徐々に画像を復元していくプロセスを指し、本モデルではテキスト生成に応用されています。
MoE (Mixture of Experts): 大規模なモデル構造の一つ。全パラメータの一部のみを活性化させることで、計算効率を維持しながら高い性能を実現する技術です。

今後の影響

ローカルGPUでのAI推論の常識を変える可能性があり、エッジデバイスや個人開発者による高速なAIアプリケーションの実装が加速すると予想されます。ただし、品質と速度のトレードオフがあるため、用途に応じたモデル選定が重要となります。

Information Sources: