テクノロジー 注目度 85

ジェミニ3.1 Pro発表直後レビュー:ベンチマーク王?実力派か?

2026年2月19日、Googleが新しいAIモデル「Gemini 3.1 Pro」を発表しました。同時期にClaude Opus 4.6とGPT-5.3-Codexもリリースされ、AI開発の激化を感じさせます。Gemini 3.1 Proは、入力1Mトークン/出力64Kトークンのコンテキスト長や$2/1M入力という低価格が特徴です。ベンチマークでは推論タスクでARC-AGI-2で77.1%を記録し、Claude Opus 4.6(68.8%)やGPT-5.2(52.9%)を上回りました。コーディング能力も高く、LiveCodeBench Pro Eloで2,887とGPT-5.3-Codex(2,393)に迫っています。特に注目すべきはエージェント開発向け設計です。MCP Atlasでのスコアが69.2%とトップを記録し、GoogleはGemini 3.1 Proをエージェント時代を切り開くモデルとして位置づけています。しかし、専門的なタスクではClaude系が依然として優位であり、プレビュー版であることやAntigravityエコシステムの未成熟さも課題です。


背景

2026年2月には、GoogleのGemini 3.1 Pro、AnthropicのClaude Opus 4.6、OpenAIのGPT-5.3-Codexといった強力なAIモデルが相次いでリリースされました。この競争激化は、AI開発のスピードアップと多様化を象徴しています。

重要用語解説

ARC-AGI-2: 推論能力を評価するベンチマークテスト。Gemini 3.1 Proは77.1%という高いスコアを記録しました。

MCP Atlas: エージェント開発のためのツール選択と連携精度を評価するベンチマークテスト。Gemini 3.1 Proが69.2%のトップスコアを獲得しました。

LiveCodeBench Pro: コーディング能力を評価するベンチマークテスト。Gemini 3.1 ProはEloで2,887という高いスコアを記録しました。

SWE-Bench Verified: 実務におけるバグ修正能力を評価するベンチマークテスト。Claude Opus 4.6とGemini 3.1 Proがほぼ同率でした。

Terminal-Bench 2.0: ターミナル操作の自動化能力を評価するベンチマークテスト。GPT-5.3-Codexが77.3%という高いスコアを記録しました。

今後の影響

Gemini 3.1 Proは、低価格と高性能により、プロダクション環境での利用に適したモデルとして注目されています。特にエージェント開発分野では、MCP Atlasのスコアやcustomtoolsエンドポイントが示すように、Googleが積極的に取り組んでいることがわかります。今後、マルチモデル・オーケストレーションが主流となるAI開発において、Gemini 3.1 Proは重要な役割を果たしていくでしょう。