テクノロジー注目度 82

NVIDIA、Google DeepMindの「DiffusionGemma」を発表：ローカルAI向けに高速テキスト生成を実現

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

本日、Google DeepMindは実験的なオープンモデル「DiffusionGemma」をリリースしました。これは、特に高速なテキスト生成を目指して構築されたモデルであり、NVIDIAがこれを最適化し、ローカルPCからクラウドまで幅広い環境で動作可能にしました。

このモデルの最大の特徴は、従来のLLM（大規模言語モデル）が単語を一つずつ順番に生成する「自己回帰的（autoregressive）」なプロセスとは根本的に異なる点です。一般的なLLMがタイプライターのように逐次処理を行うのに対し、DiffusionGemmaは画像生成に使われる拡散モデル（diffusion models）のアプローチを採用し、ノイズから一度にテキストブロック全体を洗練させて出力します。

このパラレル生成方式により、従来のボトルネックであったメモリ帯域幅の問題を計算能力（compute-bound）の問題へと転換させました。その結果、単一ユーザーが利用する対話型チャットやエージェントループなど、レイテンシに敏感なワークロードにおいて、最大で4倍高速なテキスト生成を実現しています。

技術的な詳細として、DiffusionGemmaは260億パラメータのMixture-of-Experts (MoE) モデルであるGemma 4を基盤としつつ、独自の拡散ヘッド（diffusion head）を組み込んでいます。このモデルはApache 2.0ライセンスの下でオープンウェイトであり、RTXやDGX SparkといったNVIDIAのハードウェア上で完全にローカルに動作します。

具体的な性能を示すデータとして、単一のNVIDIA H100 Tensor Core GPUでは1,000トークン/秒、NVIDIA DGX Sparkでは150トークン/秒という高速な推論速度を達成し、同等の自己回帰モデルと比較して大幅な優位性を示しています。開発者はHugging Face TransformersやvLLMといったツールを通じて容易にアクセスでき、UnslothやNVIDIA NeMoフレームワークを利用したファインチューニングも可能です。

背景

従来のLLMは「自己回帰的（autoregressive）」な仕組みを採用しており、前の単語に依存して次の単語を一つずつ生成するため、対話的な利用では遅延が課題でした。本ニュースは、この逐次処理のボトルネックを解消し、並列計算能力を持つNVIDIA GPUの強みを最大限に引き出す新しいテキスト生成パラダイム（拡散モデル）を提案したものです。

重要用語解説

自己回帰的 (autoregressive): LLMが前の単語に基づいて次の単語を一つずつ順番に予測・生成する方式。対話的なAI体験の基本ですが、処理速度のボトルネックとなりやすい。
Mixture-of-Experts (MoE): モデル全体を複数の専門家（Expert）の集合体として構成し、必要なタスクに応じて一部のパラメータのみを活性化させる技術。効率的な計算資源利用を可能にする。
拡散モデル (diffusion models): 画像生成などで用いられる手法で、ノイズから徐々に画像を洗練させていくプロセス。本記事ではこれをテキスト生成に応用している。

今後の影響

ローカル環境でのAI推論速度が飛躍的に向上するため、単一ユーザー向けのリアルタイム対話型エージェントやオンデバイスアシスタントの実装が加速します。これにより、クラウドへの依存度を下げ、プライバシー保護と低レイテンシなアプリケーション開発が進むと予想されます。

Information Sources: