Fable 5による直接実装が「指示役+低コストモデル」より3倍効率的だった検証結果
本記事は、最新のAIモデルであるClaude Fable 5(Mythosクラス初の一般公開モデル)を用いて、「ブラウザで動くスーパーマリオブラザーズ風ゲームをゼロから作成する」というタスクについて、2つの異なる体制での検証結果を報告しています。検証の目的は、Fableのような高性能な大規模言語モデル(LLM)に「指示役」として振る舞わせ、実装作業をより高速で低コストな別のAIエージェント(Cursor Composer 2.5 Fast)に委譲するワークフローが有効かどうかを明らかにすることでした。
検証では、「体制A:Fable 5が直接実装する」方法と、「体制B:Fable 5が指示・レビューに徹し、Composer 2.5 Fastが並列で実装する」方法の2つが比較されました。その結果、以下の点が判明しました。
1. **トークン消費量**: Fableを節約できるはずの体制Bは、Fableが共通コード作成やタスク分解、レビューを行う過程で大量のコンテキスト(情報)を消費し、最終的に直接実装した体制Aよりも約3倍(5万トークン vs 14万トークン)も多くのトークンを消費しました。
2. **所要時間**: 体制Aは約6分18秒で完了しましたが、体制Bはタスク分解やレビューの往復を含め約25分かかりました。
3. **品質と出来栄え**: 最終的なゲームの完成度においては、Fableが直接実装した体制Aの方が圧倒的に優れており、「実際に遊べる」レベルに達していました。一方、体制Bの実装は当たり判定がおかしいなど、品質面で大きな課題を残しました。
筆者はこの結果から、指示役(Fable)から実装役(Composer)へタスクを委譲する際、特に「マリオらしさ」のような言語化が難しい感覚的な要素や、フロントエンド/UXといった抽象度の高い部分は情報として失われやすいと考察しています。また、今回の検証は既存コードベースがない新規開発という特殊な条件に有利であったため、現時点では「一旦全部Fableに書かせる方がトータルのコストパフォーマンスが良い」というのが筆者の結論です。
背景
大規模言語モデル(LLM)の進化に伴い、AIによるソフトウェア開発支援が注目されています。特に高性能なモデル(Fable 5など)を「指示役」として使い、低コスト・高速なモデルを「実装役」に分業させるワークフロー(Delegation)は効率化の鍵と期待されていました。本検証は、この理論的な理想形が実際の開発タスクで機能するかどうかを試みたものです。
重要用語解説
- Claude Fable 5: Anthropic社が発表した最新のAIモデルの一つ。Mythosクラスに属し、高性能な推論能力を持つことが特徴です。記事内では、その高い知性を活かしてコード生成や指示出しに使用されています。
- トークン消費: LLMが処理するテキストデータ量を測る単位。入力(プロンプト)と出力(回答)の文字数に比例し、AI利用におけるコストや計算負荷を決定づける重要な指標です。
- Composer 2.5 Fast: Cursorという開発環境内で使用される高速かつ低価格なモデルエージェント。本検証では、Fableが指示したタスクを並列で実行する「実装役」として用いられました。
今後の影響
この結果は、AIによるソフトウェア開発のワークフロー設計において重要な示唆を与えます。単に高性能なモデルを使うだけでなく、「どの部分(設計・レビューか、実装か)をどのモデルに任せるか」という役割分担(デリゲーション)の判断が品質とコスト効率に直結することがわかります。今後は、言語化しにくい「感覚的な品質」をどうAIに伝えるかが課題となります。