テクノロジー注目度 72

IBMのGranite 4.1 LLMが公開：データ品質と多段階学習で性能を飛躍的に向上

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

IBMが開発した大規模言語モデル（LLM）「Granite 4.1」が、その構築方法の詳細とともに公開されました。このモデルは、3B、8B、30Bの3つの密なデコーダー専用モデルファミリーから構成されています。Granite 4.1の最大の特徴は、単なる計算資源のスケールアップではなく、「データ品質」を最優先した多段階の洗練プロセスを経ている点です。

開発チームは、約15兆トークンという膨大なデータセットを用いて、5つのフェーズにわたる事前学習を実施しました。特に、フェーズ1ではCommonCrawl（一般ウェブデータ）を約59%、コードを20%、数学を7%といった多様なデータで基礎的な言語理解を確立しました。その後、フェーズ2では数学とコードの比率を大幅に増やし、推論能力の強化に焦点を当てました。フェーズ3と4では、高品質なデータ（High-Quality Data Annealing）を重点的に使用し、Chain-of-Thoughtや指示データ（Instruction data）を組み込むことで、モデルの性能を洗練させました。最終フェーズ5では、コンテキストウィンドウを4Kから512Kまで段階的に拡張する「Long Context Training (LCE)」を実施し、長文処理能力を大幅に向上させています。

さらに、ベースモデルを信頼性の高い指示追従型アシスタントにするため、約410万件の高品質なサンプルをキュレーションし、SFT（教師ありファインチューニング）を実施しました。この際、「LLM-as-Judge」という厳格なフレームワークを用いて、構造的、意味的、行動的な基準でサンプルを評価し、ハルシネーションや誤計算などの重大な欠陥を持つものは自動的に排除しています。その後、On-policy GRPOとDAPO損失を用いた多段階の強化学習（RL）パイプラインを通じて、多領域、RLHF、知識キャリブレーションなど、特定の能力を系統的に強化しています。この徹底したデータキュレーションと多層的な学習戦略により、特に8Bのモデルは、よりシンプルな密なアーキテクチャでありながら、以前の高性能モデルに匹敵、あるいは凌駕する性能を達成しています。

背景

大規模言語モデル（LLM）の開発は、単にパラメータ数を増やすだけでなく、どのようなデータで、どのようなプロセスを経て学習させるかが性能を左右する時代に入っています。Granite 4.1は、この「データ品質」と「多段階学習」の重要性を具体的に示した事例であり、業界の最新のトレンドを反映しています。

重要用語解説

LLM: 大規模言語モデル（Large Language Model）の略。膨大なテキストデータから学習し、人間のような自然な言語を理解・生成するAIモデルの総称。
デコーダー専用: Transformerアーキテクチャの一種で、入力された情報に基づいて次の単語を予測し、テキストを生成する（デコードする）ことに特化した構造。
LLM-as-Judge: 大規模言語モデル自身を評価者（Judge）として使用する手法。人間による評価を補完し、構造的・意味的な品質チェックを自動化する。
影響: 本モデルの公開は、今後のLLM開発における「データキュレーションの重要性」を再認識させました。特に、高品質なデータと多段階のRLプロセスを組み合わせる手法が、性能向上の鍵となり、競合他社や研究機関に大きな技術的影響を与えることが予想されます。エンタープライズ分野での採用が進むでしょう。

Information Sources:

https://huggingface.co/blog/ibm-granite/granite-4-1