Amazon SageMaker AIを活用したSFTとDPOによるAIエージェントのツール呼び出し精度向上手法
本記事は、AIエージェントが複雑な多段階タスクを自律的に処理する能力を向上させるため、特に「ツール呼び出し(tool-calling)」の精度を高める手法について解説しています。エージェントが誤ったツールを選択したり、パラメータを誤ってフォーマットしたりすると、タスク完了時間の遅延、エラー率の増加、サポートコストの増大、ユーザー体験の低下を招くため、信頼性の高い自動化には正確なツール選択が不可欠です。
この課題に対し、Supervised Fine-Tuning (SFT) と Direct Preference Optimization (DPO) の組み合わせを用いることで、小規模言語モデル(SLM)のツール呼び出し精度を改善する方法を提示しています。SFTは、モデルが特定のタスクやツールとの対話のニュアンスを認識できるよう、高品質なデータセットを用いて明示的な例を教え込む手法です。一方、DPOは、人間からのフィードバックや定義された目標をトレーニングループに直接組み込むことで、モデルの出力を特定の望ましい応答や行動に近づけます。DPOは「これは良い、これは悪い」という選好データ(preference)を利用し、報酬関数や報酬モデルを必要としないため、リソース消費とトレーニング時間を削減しつつ品質を維持できます。
具体的な実装例として、Amazon SageMaker AIのトレーニングジョブを利用し、Qwen3-1.7Bモデルをファインチューニングする手順が詳細に説明されています。このプロセスでは、まずNVIDIAが公開したWhen2Callデータセットを使用し、SFT用(15,000サンプル)とDPO用(9,000サンプル)のデータセットを準備します。その後、SageMaker AI ModelTrainer APIを用いて、分散マルチGPU環境でのトレーニングジョブを構築し、モデルのファインチューニングを実行します。これにより、ユーザーはインフラ管理に気を取られることなく、トレーニングコードに集中でき、MLflowによる実験追跡も可能です。この統合的なアプローチにより、AIシステムは外部アプリケーションとの自律的な相互作用を通じて、消費者およびエンタープライズ環境におけるAIの適用範囲と有用性を大きく広げることが可能になります。
背景
AIエージェントが実用化されるにつれて、単にテキストを生成するだけでなく、外部のツール(APIなど)を正確に呼び出し、複雑なタスクを自動で実行する能力が求められています。しかし、ツール呼び出しの失敗はシステム全体の信頼性を損なうため、専門的なファインチューニング技術が不可欠となっています。
重要用語解説
- Supervised Fine-Tuning (SFT): 教師ありファインチューニング。高品質なデータセットを用いて、モデルに特定のタスクやツールとの対話の「正しい例」を明示的に教え込む手法。
- Direct Preference Optimization (DPO): 直接選好最適化。人間からのフィードバック(「良い応答」と「悪い応答」の比較)を直接利用し、報酬モデルなしでモデルの出力を望ましい行動に近づける技術。
- Amazon SageMaker AI: AWSが提供する機械学習プラットフォーム。大規模なAIモデルのトレーニングやデプロイを、インフラ管理の手間を最小限に抑えて実行できる環境。
- 影響: SFTとDPOの組み合わせは、AIエージェントの信頼性と実用性を飛躍的に向上させます。これにより、企業は単なるチャットボットを超え、バックオフィス業務や複雑なデータ処理を自動化する高度なAIシステムを構築できるようになり、業務効率化と新たなビジネスモデル創出に貢献することが期待されます。