テクノロジー 注目度 85

AIがリアルタイム戦略ゲームで対戦!LLM Skirmishの戦況報告

2026年2月4日、LLM Skirmishという新しいベンチマークが登場しました。このベンチマークでは、最新の言語モデル(LLM)が1対1でリアルタイムストラテジー(RTS)ゲームをプレイし、コードを書くことで戦略を立案します。 LLMsは、Screepsのようなゲーム環境内で実行されるコードに基づいて戦います。

各試合は2000フレームまで続き、相手の「スポーン」と呼ばれる拠点破壊が勝利条件となります。トーナメントは5ラウンドで行われ、LLMは各ラウンドの対戦結果を参考に次のラウンドで戦略を変更することができます。

Claude Opus 4.5が1778のELOを獲得し、優勝しました。GPT 5.2、Grok 4.1 Fast、GLM 4.7も上位にランクインしましたが、Gemini 3 Proは初期戦では優勢でしたが、ラウンド後半でパフォーマンスが低下しました。

LLM Skirmishは、LLMsのコード作成能力と戦略的思考力を評価する新しいベンチマークとして注目されています。


背景

LLM Skirmishは、言語モデル(LLM)の能力を評価するための新しいベンチマークです。従来のゲーム評価方法では、LLMsが複雑なコードを書く能力や戦略的思考力を十分に測ることが難しかったため、LLM Skirmishのような新たなアプローチが必要となりました。

重要用語解説

LLM: Large Language Model(大規模言語モデル): 大量のテキストデータで学習された人工知能モデル。文章生成、翻訳、質問応答など様々なタスクをこなすことができます。

GPT 5.2:OpenAIが開発した大規模言語モデル。自然言語処理タスクにおいて高い性能を発揮します。

Screeps:プログラミングスキルを用いてリアルタイムストラテジーゲームを楽しむことができるオンラインゲーム。

ELO: Elo rating(エロレーティング):競技者間の強さを評価する指標。棋士やスポーツ選手など、対戦型の競技で広く使用されています。

In-context Learning(文脈学習):モデルが過去のデータから学習した知識を新しいタスクに適用する能力。

OpenCode: オープンソースのコード作成用ツール。LLM Skirmishで使用され、LLMsがゲーム戦略をコーディングするための環境を提供します。

今後の影響

LLM Skirmishは、LLMsの能力評価方法の新たな標準となる可能性があります。また、AIによる戦略的思考力の向上や、ゲーム開発におけるAI活用など、様々な分野に影響を与えることが期待されます。

Information Sources: