Xiaomi、1兆パラメータモデルで「1秒あたり1000トークン」を達成:MiMo-V2.5-Pro-UltraSpeedを発表
中国のテクノロジー企業であるXiaomiは、TileRTとの共同開発により、「MiMo-V2.5-Pro-UltraSpeed」という新しいAIモデルAPIを発表しました。このモデルは、1兆(1T)パラメータを持つ大規模言語モデルでありながら、デコード速度で「1秒あたり1000トークン(tokens/s)」を達成した点で画期的な成果です。
本発表によると、MiMo-V2.5-Pro-UltraSpeed APIは、従来のMiMo-V2.5-Proと比較して価格は3倍ですが、生成速度は驚異的に約10倍に向上します。この超高速モデルの利用は、限られた高性能推論リソースのため、アプリケーションベースの期間限定窓口でのみ提供されます(試用期間:2026年6月9日〜6月23日)。
この速度革命がもたらす影響は甚大です。まず、「速度」自体が知性へと変質し、従来の「答えを待つ」プロセスから脱却します。モデルは同時に数十の推論パス(Best-of-N / Tree Search)を並行して実行し、自己検証と自己修正を行うことで、思考の深さと品質を向上させます。次に、コーディングエージェントの生産性天井が完全に解放されます。従来のレイテンシによるボトルネックがなくなり、コード生成速度と生産効率がパラダイムレベルで加速します。最も重要な点として、1Tモデルがリアルタイムな意思決定ループに組み込まれることが可能になります。高頻度の定量取引信号生成や即時不正検知、医療画像分析など、時間的制約が命に関わるシナリオにおいて、AIの速度は単なる効率指標ではなく、「死と戦うための重要な要素」となります。
この1000 tpsという達成は、単一技術によるものではなく、MiMoモデルチームとTileRTシステムチームによる「深い協業(Codesign)」の結果です。具体的には、汎用GPU上で実現するため、モデル側でFP4量子化を適用しつつ、MoEエキスパートのみに選択的に適用しました。さらに、「DFlash」という革新的なブロックレベルのマスク並列予測手法を採用することで、従来の逐次的な生成制約(autoregressive drafting)を根本的に排除し、推論スループットを飛躍的に高めました。
背景
大規模言語モデル(LLM)の進化において、「速度」は性能指標として極めて重要です。従来のAI開発では、計算資源やアルゴリズムのボトルネックが推論レイテンシに直結していました。本ニュースは、この物理的な制約を打破し、実用レベルで超高速なAI処理を実現した画期的な事例であり、今後の産業応用におけるゲームチェンジャーとなることが期待されています。
重要用語解説
- MiMo-V2.5-Pro-UltraSpeed: Xiaomiが開発した次世代のLLMモデル。1兆パラメータ規模を持ちながら、業界初の1000トークン/秒という超高速推論速度を実現したAPIサービス名です。
- 量子化 (Quantization): AIモデルの重みやパラメータを保持するビット数を削減し(例:FP32からFP4へ)、メモリ使用量と計算負荷を大幅に軽減する技術。高速化の鍵となります。
- DFlash: 従来の逐次的なトークン生成制約を打破するため、ブロック単位でマスクされた並列予測を行う革新的なデコーディング手法。推論速度向上に大きく貢献しました。
今後の影響
この超高速AIモデルは、金融取引(高頻度トレーディング)、医療診断支援、リアルタイムの自動運転など、ミリ秒単位の応答が求められる分野を一変させます。単なる生産性向上を超え、「時間的制約」を克服することで、これまで不可能だった高度な実用化フェーズへの移行を加速させるでしょう。