OpenAI、仮想通貨セキュリティを測るベンチマークテスト「EVMbench」を発表
OpenAIは、AIの仮想通貨に対する攻撃・防御能力を測定できるベンチマークテスト「EVMbench」を発表しました。EVMbenchは、スマートコントラクトに存在する脆弱性の検知、修正、悪用能力を評価します。実在の120件の脆弱性に基づいて構築され、OpenAIやGoogle、AnthropicなどのAIで測定結果が公開されています。
検知タスクではClaude Opus 4.6が最高スコアを記録し、修正と悪用ではGPT-5.3-Codexがトップとなりました。全体的に、AIエージェントは脆弱性の悪用の方が得意な傾向が見られました。OpenAIによると、検出タスクではコード全体の監査が必要なのに単一の問題に止まってしまう問題があり、修正タスクでは機能維持をしながら脆弱性を排除するのが難しいことが明らかになりました。
EVMbenchのテストはCode4renaの監査コンペティションで報告された情報に基づいて作成されており、本番環境で動作しているスマートコントラクトはより厳しい精査を乗り切ったため既存のAIでは悪用が困難だと指摘されています。また、検出タスクではAIが想定外の脆弱性を見つけた場合、それが真の脆弱性なのか誤検知なのか判断できない問題も残っています。
背景
仮想通貨ブロックチェーンにおけるスマートコントラクトのセキュリティは重要な課題です。EVMbenchは、AIが仮想通貨システムに対する攻撃と防御能力をどのように備えているかを評価するためのベンチマークテストとして開発されました。
重要用語解説
EVMbench: OpenAIが開発した、AIの仮想通貨セキュリティに関する攻撃・防御能力を測定するベンチマークテスト。検知、修正、悪用という3つのタスクでAIエージェントの能力を評価する。
スマートコントラクト: ブロックチェーン上で実行されるプログラム。資産の取引や自動化された契約などを処理する。
脆弱性: システムやソフトウェアに存在する欠陥。攻撃者によって悪用され、被害をもたらす可能性がある。
サンドボックス環境: 仮想的な環境でコードを実行し、本番環境への影響を最小限にするための仕組み。
Code4rena: スマートコントラクトのセキュリティに関する監査コンペティションを開催している組織。
今後の影響
EVMbenchは、AI開発者やセキュリティ研究者が仮想通貨システムの脆弱性を理解し、より安全なシステムを構築するのに役立ちます。また、このベンチマークテストの結果は、仮想通貨市場全体のセキュリティレベルを向上させるために重要な情報となります。