AIエージェント開発の進化年表:2017年から「ハーネスエンジニアリング」確立までの変遷
本記事は、生成AIのエージェント領域における概念や技術が短期間に爆発的に増加した背景を受け、「いつ・誰によって・どのような形で生まれたか」を追跡するための包括的な年表と解説を提供しています。対象読者は、AIエージェントおよびLLMアプリケーション開発に関わるエンジニアです。
歴史的変遷は大きく4つの局面で捉えられています。まず「研究先行期」(2020〜2023前半)には、RAG(Retrieval-Augmented Generation)やReActといった原典論文が集中し、LangChainなどがこれらのパターンを即座に実装化しました。次に「標準化期」(2023半ば〜2024年)では、Function CallingやMCPなどのプロトコルが語彙とプロトコルを確立し、SWE-benchのようなベンチマークが評価基準を標準化しました。
さらに、「体系化期」(2024年末〜2025年)に入ると、教科書や公式ガイドが増加し、マルチエージェント論争やContext Engineeringの結晶化が進みました。この時期には、プロンプトからアプリ製品への大衆化(Bolt・Lovableなど)と、それに対抗する仕様駆動開発(Kiro・Spec Kit)が並行して進展しました。
そして最新の「マネージド化・大衆化・ハーネスエンジニアリング期」(2025末〜2026年)において、「harness engineering」という概念がAnthropic、OpenAI、LangChainから相次いで体系化され、独立したエンジニアリング領域として確立しました。研究面ではMeta-HarnessやAutoHarnessといったハーネスの自動生成・最適化技術が登場し、能力の階層化(Mythos級)と評価軸の品質側への移行(FrontierCode)が同時に進んでいます。
この年表は、Transformer(2017)、RAG(2020)、ReAct(2022.10)、そしてAnthropicのResponsible Scaling Policy (RSP)(2023.09)など、業界設計判断を変えた「エポックメイキング」な原典を明示し、「prompt → context → harness → loop」という最適化単位の進化軸を提示しています。特に、2024年以降は、GPT-4oやClaude 3.5 Sonnetといった高性能モデルの登場と同時に、OpenDevin(後のOpenHands)などのエージェントハーネスが標準的な開発基盤として急速に普及している状況が読み取れます。
背景
本記事は、生成AIのエージェント技術の進化という極めて速い分野を俯瞰的に整理したものです。LLM(大規模言語モデル)関連の概念やフレームワークが短期間に大量生産される中で、「何がオリジナルか」「どの順序で標準化されたか」という知見を提供することが目的です。特に、単なる技術紹介ではなく、学術論文から業界標準、そして実用的な開発手法に至るまでの「系譜(Genealogy)」を追う点が重要です。
重要用語解説
- RAG: Retrieval-Augmented Generationの略。外部データベースなどから情報を取得し、それを基にLLMが回答を生成する技術。ハルシネーション対策と最新情報利用の鍵となる手法です。
- harness engineering: AIエージェントシステム全体を制御・管理するための枠組み(ハーネス)を設計・最適化する工学分野。単なるプロンプト記述を超えた、複雑な実行環境構築が求められます。
- Context Engineering: LLMへの入力コンテキスト(文脈情報)をいかに効果的に設計し、モデルの性能を引き出すかという手法論。情報の選別や構造化が重要視されています。
今後の影響
エージェント技術は今後も「ハーネス」と「評価軸」の洗練を通じて進化します。開発者は単なるプロンプトエンジニアリングから、システム全体の制御フローを設計する「ハーネスエンジニア」へのスキルシフトが必須となります。企業レベルでは、能力階層化やアクセス制御(RSP)といったガバナンス要素が標準的な開発プロセスに組み込まれることが予想されます。