テクノロジー注目度 58

Google、AIモデル「Gemma 4」に省メモリ化技術QATを導入：モバイル環境での動作が大幅改善

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

Googleは、スマートフォンやノートPCといったローカル環境で大規模言語モデル（LLM）を効率的に実行するための革新的なアプローチとして、「Quantization-Aware Training (QAT)」という技術を採用した省メモリ版AIモデル「Gemma 4 QAT」を公開しました。従来のAIモデルの実行には、VRAMやRAMといった大容量のメモリが必要であり、高性能なモデルは数十GBから数百GBに及ぶことが一般的でした。このため、計算精度を落としてメモリ使用量を削減する「量子化」技術が広く用いられてきましたが、これまでの手法では応答品質の低下が避けられないという課題がありました。

今回発表されたGemma 4 QATは、AIモデルの学習段階で量子化をシミュレートするというQATアプローチを採用したことで、メモリ使用量を大幅に削減しつつも、従来の量子化済みモデルに比べて品質低下を抑えることに成功しました。この技術により、Gemma 4の全バリエーション（E2B, E4B, 12B, 26B A4B, 31B）に対応したQAT版が提供されています。

特にモバイル用途に最適化されたE2BとE4Bモデルでは、メモリ使用量の削減効果が顕著です。例えば、オリジナルのGemma 4 E2Bは11.4GBのメモリを消費しますが、QAT版（Q4_0 4-bit）では2.9GBに、さらにモバイル最適化されたバージョンではわずか1.1GBに抑えられています。さらに特筆すべき点として、E2Bモデルから画像・音声認識能力を除いたテキスト限定モデルを用いる場合、そのメモリ消費量は驚異的な0.84GBという極めて少ない容量で動作可能となりました。これらのQAT版はすべて無料でダウンロードでき、Apache License 2.0のもと提供され、llama.cppやOllama、LM Studioといった主要なローカル実行環境での利用が明言されています。

背景

大規模言語モデル（LLM）の普及に伴い、高性能AIを一般ユーザーの個人PCやモバイルデバイスで動かすことが求められています。しかし、これらのモデルは膨大なメモリ容量を要求するため、実行環境が大きなボトルネックとなっていました。従来の量子化技術では品質低下が課題でした。

重要用語解説

量子化 (Quantization): AIモデルの計算精度を意図的に落とすことで、必要なメモリ使用量を大幅に削減する技術。高性能なモデルを一般PCで動かすために必須の手法です。
QAT (Quantization-Aware Training): 学習段階（トレーニング時）で量子化による影響をシミュレートしながらAIモデルを訓練する手法。品質低下を抑えつつ省メモリ化を実現します。
VRAM/RAM: VRAMはグラフィックボードの高速メモリ、RAMはメインメモリです。AIモデルを実行する際、これらのメモリ容量が実行速度と可能なモデルサイズを決定づけます。

今後の影響

本技術により、これまで高性能すぎてローカル環境での動作が難しかった大規模なAIモデル群（Gemma 4など）が、モバイルデバイスや一般ノートPCといったより身近な場所で安定して動くことが可能になります。これにより、プライバシー保護を重視したオフラインAI利用や、エッジコンピューティング分野におけるAIの普及が加速すると予想されます。

Information Sources:

https://gigazine.net/news/20260608-google-ai-gemma-4-qat/