テクノロジー注目度 74

Gemma 4 12Bを発表：エンコーダ不要の統一型マルチモーダルモデルでエージェント機能をラップトップに搭載

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

Googleは、最新のAIモデル「Gemma 4 12B」を発表しました。本モデルは、エージェント的なマルチモーダル知能をラップトップなどのエッジデバイスに直接持ち込むことを目的としています。これは、より軽量なE4Bモデルと、より高度な26B Mixture of Experts (MoE)モデルの中間に位置づけられています。特筆すべきは、今回が初めてのミッドサイズモデルとしてネイティブな音声入力に対応した点です。

Gemma 4 12Bの最大の特徴は、従来のマルチモーダルモデルが使用していた分離型のエンコーダを排除した「統一アーキテクチャ」を採用したことです。これにより、画像や音声の入力が、言語モデル（LLM）のバックボーンに直接流れ込む仕組みとなり、レイテンシの削減とメモリ使用量の効率化を実現しています。具体的には、視覚エンコーダを単一の行列乗算に基づく軽量な埋め込みモジュールに置き換え、音声処理においては音声エンコーダを完全に排除し、生音声信号をテキストトークンと同じ次元空間に射影しています。

この革新的な設計により、Gemma 4 12Bは、より大きな26B MoEモデルに匹敵するベンチマーク性能を維持しながらも、必要なメモリフットプリントは半分以下に抑えることに成功しました。これにより、16GBのVRAMまたはユニファイドメモリを持つ一般消費者向けのラップトップでも、強力なマルチモーダルおよびエージェント的なワークフローをローカルで実行することが可能になりました。本モデルはApache 2.0ライセンスで公開され、開発者コミュニティの利用を促進しています。開発者は、Hugging FaceやKaggleからウェイトをダウンロードし、LM StudioやOllamaなどのツールを通じてすぐに試すことができます。また、エージェント開発を支援するための公式Skills Repositoryもリリースされました。

背景

大規模言語モデル（LLM）の進化に伴い、単なるテキスト処理に留まらず、画像や音声などの複数のモダリティ（様式）を同時に理解し、処理するマルチモーダルAIが求められています。しかし、従来のマルチモーダルモデルは、各モダリティを個別に処理するエンコーダを必要とし、これがレイテンシや計算負荷の増大という課題を抱えていました。

重要用語解説

マルチモーダルモデル: テキストだけでなく、画像、音声など複数の種類のデータ（モダリティ）を同時に理解し、処理できるAIモデルのこと。より人間らしい知能の実現に不可欠な技術。
エンコーダ: 入力されたデータ（画像や音声など）を、AIが処理しやすい数値のベクトル表現（埋め込み）に変換する役割を持つモジュール。従来のマルチモーダルモデルで分離されがちだった。
エージェント的ワークフロー: AIが単発のタスクを実行するだけでなく、複数のステップや判断を自律的に計画し、実行していく能力。より高度な知能を意味する。

今後の影響

Gemma 4 12Bの登場は、高性能なマルチモーダルAIをクラウドや専用サーバーに依存せず、一般のラップトップなどのエッジデバイス上で実現可能にした点で画期的です。これにより、プライバシー保護が求められるローカル環境でのAI利用が加速し、産業や個人レベルでのAI実装が大きく進むと予想されます。特に、エージェント機能のローカル実行は、今後のAI利用の標準的な形となる可能性があります。

Information Sources:

https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/