テクノロジー注目度 73

最先端AIモデルをエッジデバイスで動作させる新技術：General Instinctが圧縮モデルを公開

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

AIモデルの開発ベンチャーであるGeneral Instinctが、大規模言語モデル（LLM）をエッジデバイス（現場の物理システム）で実用的に動作させるための技術と、その成果を公開した。これまで、最高の性能を発揮するモデルは、データセンターのような大規模なGPUや豊富なメモリ帯域幅を前提として設計されてきたが、実際の物理システムはそれとは逆の制約（リソース不足）を抱えているという課題があった。この課題を解決するため、同社は「最先端モデルのどの部分の能力を維持しつつ、エッジハードウェアで実行可能にするか」という研究を進めた。

その成果として、同社は「InstinctRazor」というツールをオープンソース化し、特にQwen3.5-122B-A10Bという約245 GBのBF16 MoEモデルを、48 GiBのGGUF形式に圧縮したモデルを発表した。この圧縮モデルは、Gemma-4-26B-A4Bよりもサイズが小さいにもかかわらず、MMLU-ProやGPQA-Dなどのベンチマークにおいて優れた性能を維持している。具体的な技術的アプローチとして、常にアクティブな部分（ルーター、正規化層、Gated-DeltaNet/SSM層、ビジョンパスウェイなど）を保持しつつ、ルーティングされたエキスパートをよりアグレッシブに量子化し、さらにオンポリシー蒸留を用いて量子化で失われた能力を回復させている。さらに、このモデルはエキスパートをシステムRAMからストリーミングする「小型GPU」構成でも動作可能であり、8kのコンテキストウィンドウを使用した場合でも、ピークVRAM使用量は約7.6〜8 GBに抑えられるという実用的な性能を示している。同社は、ロボットやその他のエッジデバイスへのモデル展開に携わる人々からのフィードバックを求めている。

背景

近年、AIモデルのサイズと性能は指数関数的に増大しており、データセンターでの運用が主流であった。しかし、ロボットやIoTデバイスなどのエッジ環境では、電力、メモリ、計算資源が極めて限られているため、大規模モデルの直接的な適用が困難であった。このギャップを埋める技術が求められてきた。

重要用語解説

MoE: Mixture of Experts（エキスパート混合モデル）の略。複数の専門的なサブモデル（エキスパート）を組み合わせ、入力に応じて必要な部分だけを動的に呼び出すことで、モデルの巨大な知識量を維持しつつ、計算効率を向上させる構造。
GGUF: 大規模言語モデルの重み（パラメータ）を効率的に保存し、様々なプラットフォームやハードウェアで実行できるように最適化されたファイル形式。量子化されたモデルを扱う際によく用いられる。
量子化: モデルのパラメータ（重み）のデータ型を、高い精度（例：BF16）から低い精度（例：4ビット）に変換するプロセス。モデルサイズを大幅に削減し、メモリ使用量を抑えるが、性能低下のリスクがある。

今後の影響

本技術は、AIモデルの「クラウド依存」という制約を大きく緩和し、AIの現場（エッジ）への普及を加速させる。これにより、通信環境に左右されず、リアルタイム性が求められるロボティクスや産業用IoT分野でのAI活用が飛躍的に進むと予想される。今後の展開としては、より多様なエッジデバイスへの最適化が進むだろう。

Information Sources:

https://news.ycombinator.com/item?id=48414869