テクノロジー注目度 54

LLMによる脆弱性ハッキング検証：開発者が1,500ドルを費やした結果

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

この記事は、セキュリティリサーチを行う筆者が、大規模言語モデル（LLM）が一般的なアプリケーションの脆弱性を悪用できるかを検証した実験結果を報告している。筆者は、React NativeとPythonで構築した架空のブックレビューアプリ（ExpoとFastAPIを使用）をターゲットとし、ユーザーのプライベートレビューに格納された「フラグ」を見つけることを目的とした。このアプリは、API自体は安全に設計されているものの、データ層としてFirebaseを使用している点に脆弱性（Broken Access ControlまたはMissing Object-Level Authorization）があることを発見した。

検証の過程で、筆者は各LLMに対して、APKファイルとチャレンジの説明を含むデータを与え、最大10回までテストを繰り返した。この実験は科学的な評価ではなく「遊び」の範疇であり、合計で1,500ドルを費やした。テストは、各モデルに10ドルの上限と2時間の時間制限を設けて実施された。

結果として、GPT-5.5が7/10の成功率を記録し、平均$9.46/solveというコスト効率を示した。一方、Deepseek V4 Proは3/10の成功率で、平均$0.62/solveと非常に低いコストで成功を収めた。Claude Sonnet 4.6は2/10、Claude Opus 4.8も2/10と成功したが、コストは高めであった。Gemini 3.1 Pro PreviewやGemini 3.5 Flashは、セキュリティ上の理由から即座に拒否されるケースが目立った。

筆者は、中国系のモデル（GLMなど）がデータベースへの攻撃に比較的慣れている一方、欧米系のモデルは「ライブデータベースに影響を与える」という理由で攻撃を躊躇する傾向があるという洞察を述べている。この検証は、LLMが単なるコード生成だけでなく、実際のシステム脆弱性発見のプロセスに利用できる可能性を示唆している。

背景

近年、AI技術の進化に伴い、LLM（大規模言語モデル）が単なるテキスト生成を超え、実際のシステムやコードの脆弱性発見、ハッキングのシミュレーションに利用できるかという関心が高まっている。本記事は、その最先端の応用可能性を実証的に検証した事例である。

重要用語解説

LLM: 大規模言語モデル（Large Language Model）の略称。大量のテキストデータから学習し、人間のような自然な言語を理解・生成するAIモデルの総称。
Broken Access Control: アクセス制御の不備。システムにおいて、ユーザーが本来アクセス権を持たないデータや機能にアクセスできてしまう脆弱性のこと。
Firebase: Googleが提供するモバイル・ウェブアプリケーション開発向けのバックエンドサービス。データベース（Firestore）や認証機能などを容易に実装できるため、本記事の脆弱性検証のターゲットとなった。

今後の影響

本検証結果は、LLMがセキュリティ監査やペネトレーションテストの初期段階で非常に強力なツールとなり得ることを示している。しかし、高額なAPI利用料や、モデルごとの成功率のばらつきが課題として残る。今後は、よりコスト効率が高く、かつ倫理的な制約を受けにくいモデルの開発が求められるだろう。

Information Sources:

https://kasra.blog/blog/i-spent-1500-seeing-if-llms-could-hack-my-app/