テクノロジー注目度 90

Claude Mythos Previewの能力評価：壊滅的リスクは低いが、過去モデルよりは上昇傾向

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

Anthropic社は、最新のAIモデル「Claude Mythos Preview」の安全性とリスク評価に関するシステムカードを公開しました。この評価は、同社が自主的に定めている「責任あるスケーリングポリシー（RSP）」に基づいています。RSPは、高度なAIシステムがもたらす壊滅的リスクを管理するための枠組みであり、モデルの利点がコスト（リスクやマイナスの影響）を上回るかを判断する指針です。

評価の結果、Mythos Previewは、同社が過去に公開した最も高性能なモデル「Claude Opus 4.6」を大きく上回る高い能力を示すことが確認されました。このため、モデルの能力は多くの客観的な評価指標で既にほぼ上限に達している状況です。しかし、全体的な結論として、壊滅的リスクは依然として「低い」と判断されています。ただし、このリスク水準は、以前のモデルと比較すると「高い」と評価されています。

評価プロセスでは、モデルの能力評価に加え、自動評価、アップリフト試験、第三者によるレッドチーミングなど、複数の情報源からのエビデンスが収集されています。特に「自律性脅威モデル1（初期段階のミスアラインメントリスク）」については、Mythos Previewの向上した能力とアラインメント特性の変化の可能性を考慮し、個別の全体的リスク評価が実施されました。このモデルの全体的リスクは「非常に低い」ものの、以前のモデルよりは高いと結論付けられています。

Anthropic社は、今後のリスク評価においては、客観的な指標に頼るだけでなく、能力向上の加速傾向の観察や、社内ユーザーからの主観的なフィードバックなど、より根本的な不確実性を含むアプローチが必要であると述べています。これは、AIの進化が急速であり、従来の評価枠組みだけでは捉えきれない新たなリスクの側面が存在することを示唆しています。

背景

Anthropic社が策定した「責任あるスケーリングポリシー（RSP）」は、高度なAIモデルが社会に与えうる潜在的な壊滅的リスクを管理するための自主的な枠組みです。AIの能力が急速に向上する現代において、単なる性能評価に留まらない、より包括的な安全性とリスク管理の枠組みが求められています。本記事は、その最新の評価プロセスと結果を公開したものです。

重要用語解説

責任あるスケーリングポリシー（RSP）: Anthropic社が定める、高度なAIシステムがもたらす壊滅的リスクを管理するための自主的な枠組み。モデルの安全性と社会的な影響を包括的に評価する指針です。
AIセーフティレベル（ASL）: AIシステムが特定の脅威モデルに対して必要とされるリスク対策のレベル。RSPの初期バージョンで用いられ、リスク対策の必要性を判断する基準でした。
自律性脅威モデル: AIシステムが自律的かつ目標指向で行動し、意図的または偶発的に世界的な壊滅的リスクを引き起こす可能性を想定した脅威モデル。特に高度なAIに焦点を当てています。

今後の影響

本評価は、AIの進化がもたらすリスクが定量的な指標だけでは測れない「不確実性」を伴うことを示しています。今後、AI開発企業は、単なる性能向上だけでなく、リスクの傾向分析や主観的なフィードバックを取り入れた、より多角的な安全評価手法を確立することが求められ、AIガバナンスの議論が深まるでしょう。

Information Sources:

https://zenn.dev/sol_sun/articles/claude-mythos-02-rsp_01