テクノロジー注目度 67

明確なゴール設定と評価（Eval）の重要性：Claude Extended Tokyoでの学び

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

本記事は、2026年6月11日に開催されたAnthropicの「Code with Claude: Extended Tokyo」に参加した筆者が学んだ内容をまとめたものです。イベントでは主にManaged Agentsに関するハンズオン形式のワークショップが実施され、「明確なゴール設定（Goal）と評価（Eval）によってエージェントを効果的に動かす方法」という一貫したテーマが提示されました。

まず、長時間稼働するエージェントに伴うミスのコスト増に対応するため、「3つの道具」が紹介されました。一つ目は「曖昧さの排除」（Phase 1）であり、実装前にエージェントに質問させることで、仕様を具体的な問いかけを通じて明確化することが重要だと強調されています。二つ目は「計画の可視化」（Phase 2）で、MarkdownではなくHTML形式を用いることで、モデルの思考プロセスや複数のデザイン方向性を構造的に比較できる点が示されました。三つ目は「検証の組み込み」（Phase 3）であり、単なる後付けではなく、「Build for it from the start」といった原則に基づき、`data-verify-*`属性などを用いてコンポーネント単位で検証可能な設計を行うことが求められています。

また、エージェント開発においては、まず「評価（Evals）」を用意することが最も重要だと繰り返し強調されました。スライド生成エージェントの例では、Evalがない場合とある場合の対比が示され、「成功とはどういう状態か」を強制的に言語化し、ゴールを定義することの必要性が説かれました。さらに、複雑なタスクを持つエージェントは「ツール/Skill/Subagentに分解する」べきであり、特に算術的な処理（例：サプライヤー選定の順位付け）はLLMによる推論ではなくPythonなどのコード実行に任せることで、処理時間を488秒から約100秒へ短縮し、スコアを71%から92%へと大幅に改善できることが実証されました。

その他、インドネシアの法令データベース構築事例からは、「あらゆる情報がクエリ可能であること」の重要性が示され、AIエージェント時代には構造化されたDBへのクエリ（MCP）が必須であることがわかります。これらの学びを通じて、筆者は「コードを書くこと自体より、コードがうまく書かれる条件を整えることが仕事になってきた」という結論に至っています。

背景

AIエージェントは近年急速に進化し、単なるチャットボットから複雑なタスクを実行する自動化システムへと役割が拡大しています。しかし、その能力の向上に伴い、「ゴール設定の曖昧さ」「検証可能性の欠如」「計算処理と推論の混同」といった新たな課題も浮上しました。本記事は、これらの実務的な課題を解決するための最新のアプローチを紹介しています。

重要用語解説

Managed Agents: Anthropicが提供するエージェント実行環境の一つ。開発者が複雑なシステム構築に集中できるよう、バックエンドのインフラやツール連携を管理・抽象化している仕組みです。
Evals (Evaluation): AIモデルやエージェントの性能を評価するためのテストタスク群。単なるプロンプト入力ではなく、「成功とはどういう状態か」というゴール定義に基づいて体系的に設計されます。
決定論的パーサー: LLMのような確率的な推論に頼らず、明確なルール（文法など）に基づいてデータを構造化する処理機構。法令の条文構造化などに用いられ、高い信頼性が求められる場面で必須です。

今後の影響

エージェント開発のパラダイムシフトを促し、「プロンプトエンジニアリング」から「システム設計と評価工学（Eval Engineering）」へと焦点が移ることを示唆しています。今後は、単に高性能なLLMを使うだけでなく、検証可能なコンポーネント設計や明確なゴール定義が、ビジネス価値創出の鍵となります。

Information Sources:

https://zenn.dev/gaogaoasia/articles/65db07864e31b8