コストと品質は比例しない:Kiro CLIによるAIモデル比較検証レポート
本記事は、AIエージェント「Kiro CLI」を用いて、iOSアプリのコードベース(SwiftUI + Firebase、モノレポ構成)を分析させ、リファクタリング提案をGitHub Issueとして自動生成するワークフローの検証結果を報告している。目的は、夜間など自動実行を想定し、コスト効率と提案品質の関係性を明らかにすることである。
検証では、4つの異なるAIモデル(Haiku 4.5、Qwen3 Coder Next、Auto、MiniMax M2.5)を、同じリポジトリ、同じプロンプトで実行し、生成されたIssueの品質を比較した。比較対象の具体的な問題は、「SwiftDataからFirestoreへの移行が途中で止まっており、旧SwiftDataのデッドコードが残っている」という点である。
結果として、コスト倍率と提案品質は直線的に比例しないことが判明した。各モデルの性能は以下の通りであった。
1. **Haiku 4.5**: 最も安価(0.4x)で高速(3分33秒)だが、提案は表面的であり、具体的な修正箇所(行番号など)に言及していない。
2. **MiniMax M2.5**: 比較的安価(0.25x)だが、最も実行時間が長く(20分8秒)、提案が曖昧でファイルパスも空欄となるなど、実用性に欠ける結果となった。
3. **Qwen3 Coder Next**: 良好なバランスを示し、ファイル名、行番号、具体的な修正提案を提示した。コスト(4.05クレジット)と品質のバランスが優れていた。
4. **Auto**: 最も高コスト(9.91クレジット)かつ長時間(9分18秒)を要したが、最も深い分析能力を発揮した。単なる削除提案に留まらず、「削除後に何が壊れるか」という下流の影響分析(例:型変更の必要性)まで踏み込み、アーキテクチャ全体を考慮した提案を行った。また、ドキュメントの主張を鵜呑みにせず、「claim」という言葉を用いて検証する姿勢も見られた。
結論として、単にコストが低いモデルは浅い分析に留まりがちであり、高いコストを払うAutoモデルが最も深い洞察を提供したが、Qwen3 Coder Nextのような、コストと深さのバランスが取れたモデルが実務上最も有用であると示唆されている。
背景
AIエージェントによるコードベースの自動分析・リファクタリング提案は、大規模なソフトウェア開発における技術的負債の解消や開発効率化に役立つと期待されている。本記事は、複数のLLMモデルのコスト効率と実用的な提案品質を比較することで、実務的なモデル選定の指針を提供している。
重要用語解説
- Kiro CLI: AIエージェントの実行環境またはインターフェース。カスタムエージェントを設定し、コードベースの分析やGitHub Issueの自動生成を行うためのツール群を指す。
- モノレポ構成: 単一のリポジトリ内に、複数の関連するプロジェクトやモジュールをまとめて管理する開発構成。大規模なコードベースを扱う際に、全体的な依存関係の把握が重要となる。
- デッドコード: プログラムの実行フロー上、もはや使用されなくなったが、コードベース内に残存している不要なコード部分。メンテナンスコストやビルドサイズを増大させる原因となる。
今後の影響
AIによるコード分析の自動化は、開発ワークフローを大幅に効率化する可能性を秘めている。本検証結果は、単に高性能なモデルを選ぶのではなく、タスクの深さや求められるアウトプットの粒度に応じて、コストと性能のバランスが取れたモデルを選択する重要性を示しており、今後のAI開発ツール選定の指針となる。