OpenAIがAIコーディングベンチマークの「無意味化」を指摘:初期問題の分析から、テストの欠陥とデータ汚染が判明
OpenAIは、AIのプログラミング能力を測る代表的なベンチマークである「SWE-bench Verified」について、その有効性に疑問を呈し、「もはや最先端モデルの能力を正しく測定するベンチマークとして適切ではない」と提言しました。このベンチマークは、2023年にリリースされた「SWE-bench」を改良し、2024年に公開されました。当初はモデルの性能が急激に向上していましたが、2025年8月から2026年2月にかけては、わずか6か月間で6%程度の改善に留まり、成長の鈍化が懸念されていました。
OpenAIが2026年2月に実施した詳細な分析の結果、SWE-bench Verifiedには二つの重大な問題が発見されました。一つ目は「テストが正しい解法を拒否する欠陥」です。監査の結果、モデルが解けなかったデータセットの27.6%のうち、少なくとも59.4%に、単一の答えではないなどの理由で「機能的に正しい解答の送信を拒否してしまう欠陥のあるテストケース」が含まれていたことが判明しました。二つ目は「データ汚染」の問題です。SWE-benchの問題がオープンソースリポジトリから取得されているため、最先端モデルが問題文や実際の修正コードを学習データとして再現できてしまうケースが確認されました。これは、ベンチマークのパフォーマンス向上をモデル自体の能力向上ではなく、「モデルがトレーニング時にベンチマークをどれだけ参照していたか」というデータ汚染の度合いを反映している可能性が高いことを示しています。
これらの問題を受け、OpenAIはSWE-bench Verifiedの結果報告を停止し、代替として「SWE-bench Pro」などの新しい評価手法の利用を推奨しています。SWE-bench Proは、データ汚染を防ぐため評価データの一部を非公開にするなど、より厳密な設計が採用されています。OpenAIは今後、汚染されていないデータセットや、実環境に近い評価、人間によるレビューを含む新しいアプローチの重要性を強調しています。
背景
AIの進化に伴い、モデルの能力を客観的に測定するためのベンチマークの重要性が高まっています。SWE-benchは、実際のソフトウェアエンジニアリングの課題を再現することで、AIのコーディング能力を評価する代表的な指標として注目されてきました。しかし、その設計上の欠陥やデータ汚染の問題が指摘され、信頼性の再検証が必要となりました。
重要用語解説
- SWE-bench Verified: OpenAIが公開した、AIのプログラミング能力を測るベンチマーク。オープンソースのGitHub issueを基に、モデルのコード修正能力を評価する指標。
- データ汚染: AIモデルが、学習データセットに含まれる特定の情報(この場合はベンチマークの問題と答え)を過度に記憶し、真の能力向上ではなく参照によって性能が向上してしまう現象。
- プルリクエスト: ソフトウェア開発において、変更したコードをメインのコードベースに統合する前に、レビューやテストを受けるための提案(変更セット)のこと。AIのコード修正の単位として用いられる。
今後の影響
本件は、AIの能力評価基準そのものに大きな疑問を投げかけました。今後は、単なるベンチマークスコアの追求ではなく、より実環境に近い、データ汚染を排除した評価方法や、人間によるレビューを組み込んだ多角的な評価アプローチが業界標準となることが予想されます。AI開発の信頼性向上に不可欠な転換点です。