テクノロジー注目度 74

マイクロソフト、独自開発のAIモデル7種を発表：Claude超えの推論能力と画像・音声生成機能が注目

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

米マイクロソフトは、2026年6月3日未明に開催された年次イベント「Microsoft Build 2026」において、独自開発した7種類のAIモデル群「Microsoft AI Models」を発表しました。これらのモデルは、同社のAI戦略におけるフラッグシップとして位置づけられています。

発表されたモデル群の核となるのは、推論モデル「MAI-Thinking-1」です。これは総パラメーター数1兆、アクティブパラメーター数350億のMoE（Mixture-of-Experts）モデルであり、学習データにAI生成コンテンツを含めず、適切なライセンスが付与されたクリーンなデータのみを使用している点が特徴です。ベンチマークテストでは、数学問題の解答能力を測定するAIME 2025において、競合のAnthropic社製「Claude Sonnet 4.6」を上回る結果を出しました。また、Microsoftは、1276件のタスク実行能力について人間による評価を実施し、MAI-Thinking-1がClaude Sonnet 4.6よりも高性能であるとアピールしています。

その他、以下の機能特化型のモデルも発表されました。

1. **コーディングモデル（MAI-Code-1-Flash）**: 総パラメーター数50億の小型モデルで、GitHub CopilotやVS Codeでの高速なコーディングタスク実行を可能にします。

2. **画像生成・編集（MAI-Image-2.5/Flash）**: 画像生成AIとして「Arena」で世界3位、画像編集で世界2位にランクイン。高品質な画像生成に加え、指示通りの文字描画性能も優れています。

3. **音声認識（MAI Transcribe-1.5）**: 日本語を含む43言語に対応し、低エラー率と高速処理速度を両立した高精度な文字起こしモデルです。

4. **音声合成（MAI-Voice-2/Flash）**: 日本語を含む15言語に対応。人間の音声を入力することで、同じ声で任意のワードを発話させる音声クローン機能も備え、本物と同等と評価されています。

これらのモデルは、Microsoft FoundryのAPI経由で順次利用可能となり、マイクロソフトのAIインフラの自己完結性と競争力の強化を目的としています。

背景

大規模言語モデル（LLM）市場は、AnthropicやOpenAIなどの大手企業が牽引し、性能競争が激化しています。特に、推論能力やマルチモーダル対応が焦点となっており、企業は自社データやインフラを活用した独自モデルの開発に注力しています。

重要用語解説

MoEモデル: Mixture-of-Expertsの略。巨大なモデルを複数の専門家（エキスパート）に分割し、必要なタスクに応じて最適な部分だけを呼び出す構造。効率的な計算と高い性能を両立させます。
ベンチマーク: AIモデルの性能を客観的に測定するための標準化されたテスト。特定のタスク（例：数学、コーディング）におけるスコアで優劣を判断します。
エージェントコーディングモデル: 単なるコード補完に留まらず、開発環境（VS Codeなど）内で複雑なタスクを計画・実行できる、高度なコーディング支援AIモデルを指します。

今後の影響

本発表により、マイクロソフトはAIモデルの垂直統合（開発、インフラ、利用環境）を強力に推進し、競合他社に対する優位性を確立しました。特に、クリーンなデータと自社チップを活用したモデルは、データガバナンスとセキュリティを重視する大企業顧客に大きなアピールとなり、エンタープライズAI市場の競争激化が予想されます。

Information Sources: