AI企業Inception、世界最速の推論LLM「Mercury 2」を発表
AI企業Inceptionは、拡散モデルに基づく世界最速の推論LLM「Mercury 2」を発表しました。従来のLLMが1トークンずつ処理するのに対し、Mercury 2は並列処理により複数のトークンを同時に生成することで、応答速度を大幅に向上させています。NVIDIA Blackwell GPUで1秒間に1009トークンを生成可能であり、既存のLLMの5倍以上の速度を実現しています。価格は0.25ドル(約39円)で100万入力トークン、0.75ドル(約117円)で100万出力トークンの処理が可能で、主要な速度最適化モデルと競合可能な品質を備えています。Mercury 2は調整可能な推論、コンテキスト長12万8000トークン、ネイティブツールの使用、スキーマに準拠したJSON出力などの機能も搭載しています。現在、早期アクセスが開始されており、チャットAIとして利用できるデモ版も公開されています。
背景
Inceptionは次世代の大規模言語モデル(LLM)開発企業です。既存のLLMは自己回帰型のシーケンシャルデコードにより、応答速度が遅くなりがちです。そこでInceptionは並列処理を用いた新しいLLM「Mercury 2」を開発し、従来のLLMよりもはるかに高速な応答を実現しました。
重要用語解説
拡散モデル: 生成モデルの一種で、ノイズからデータを作成する過程を逆転させて学習します。近年、画像生成など様々な分野で注目されています。
[重要性: 高]。[具体例: DALL-E 2, Stable Diffusion]
LLM(Large Language Model): 大量のテキストデータを用いて訓練された、自然言語処理能力に優れたAIモデルです。文章生成、翻訳、質問応答など様々なタスクに利用されます。
[重要性: 高]。[具体例: ChatGPT, LaMDA]
推論LLM: 入力された情報に基づいて結論を導き出す能力を持つLLMのことです。問題解決や意思決定などに役立ちます。
[重要性: 中]。[具体例: Mercury 2, GPT-3]
GPU(Graphics Processing Unit): 主にグラフィック処理を行うハードウェアですが、並列処理能力が高いためAI学習にも利用されています。
[重要性: 中]。[具体例: NVIDIA GeForce RTX 3080]
今後の影響
Mercury 2は、高速な応答速度により、チャットボットやリアルタイム翻訳などのアプリケーションに大きなインパクトを与えると期待されます。また、科学計算や研究レベルのコーディング能力も高く評価されているため、これらの分野での活用も期待できます。