Anthropicの最新AIモデル「Fable」に搭載された厳格なガードレール巡り、セキュリティ研究者から批判が噴出
サイバーセキュリティ分野の研究者や専門家らが、Anthropic社が公開した最新のAIモデル「Fable」に設けられた過剰な制限(ガードレール)について懸念と批判を表明している。Fableは、同社の強力で注目度の高いサイバーセキュリティモデル「Mythos」の一般向けかつ限定的なバージョンとして火曜日にリリースされた。
問題となっているのは、このAIが「サイバー関連の可能性のあるリクエスト」に対して極めて敏感に反応しすぎる点である。IBM X-Forceの著名なセキュリティ研究者ヴァレンティーナ・パルミオッティ氏によると、単なるブログ記事の読解といった無害なタスクであっても、「安全対策がサイバーセキュリティまたは生物学的なトピックとしてこのメッセージをフラグ付けした」とチャットが一時停止してしまうという。
これらのガードレールは、Fableが悪意のあるマルウェア開発やソフトウェアの侵害に利用されるリスクを制限するために設けられたものであり、生物学的な制限は生物兵器開発への懸念に基づいている。Anthropic社は以前からこの種の制限を設けてきた経緯がある。
専門家からは、その制限が場当たり的であるという指摘が出ている。サイバーセキュリティのベテランであるマット・スイッシュ氏は、Fableに「安全なコードを書くように」依頼した場合でも、それがソフトウェア工学上のベストプラクティスではなく、「サイバーセキュリティ関連の作業」だと誤認し、結果的に機能が制限されてしまうと指摘した。さらに、単なる「コードレビューを依頼する」行為さえもガードレールを誘発することが報告されている。
Fableはガードレールに引っかかった場合、Claude Opus 4.8にフォールバックするように設計されているものの、この仕組みがキーワードベースであるため、「サイバーセキュリティ」の語彙フィールドにある単語であれば何でもトリガーとなりやすい状況だ。しかし、別の専門家からは「初期段階であり、ガードレールは時間とともに進化するだろう」と理解を示す声もある。
Anthropic社は、モデル内部の制限に加え、サイバーセキュリティ専門家に対して「Cyber Verification Program」への参加を義務付けており、承認された者のみがClaudeを用いた作業においてより少ない制限を受けられる仕組みとなっている。これはOpenAI社のTrusted Access for Cyberプログラムと同様の手法である。
背景
大規模言語モデル(LLM)の進化に伴い、AIが悪用されるリスク(例:マルウェア生成、生物兵器開発支援など)が深刻化している。Anthropic社は、このリスクを最小限に抑えるため、自社の高度なモデル群(Mythos, Fableなど)に厳格な安全対策(ガードレール)を組み込んでいるのが背景にある。
重要用語解説
- 大規模言語モデル (LLM): 人間のような自然な文章を生成できるAIの総称。AnthropicやOpenAIなどが開発する、現在のAI技術の中核を成すシステムである。
- ガードレール: AIが危険な出力(違法行為の指示、有害情報など)を行わないよう、意図的に設定された安全制限やフィルタリング機構のこと。
- サイバーセキュリティ: コンピュータシステムやネットワークを外部からの不正アクセスや攻撃から保護するための技術的・管理的な対策全般を指す専門分野。
今後の影響
過度なガードレールは、AIの実用性(ユースケース)を著しく低下させ、開発者やユーザーが本来の目的でモデルを活用する際の障壁となる。今後は、安全性と利便性のバランスを取るため、より文脈を理解した柔軟な制限機構の開発が求められるだろう。