テクノロジー注目度 90

Amazon SageMaker AI：2025年、柔軟なトレーニングプランとインフレンスワークロードの価格性能向上

2025年、Amazon SageMaker AIは、容量、価格パフォーマンス、監視、使いやすさの4つの側面で重要な改善を遂げました。このシリーズでは、これらの改善とその利点を詳しく説明します。第1回では、柔軟なトレーニングプランの導入とインフレンスワークロードの価格性能向上について説明します。

柔軟なトレーニングプランは、トレーニングワークロード用に設計された容量予約機能をインフレンスエンドポイントに拡張し、特に評価期間、限られた期間の生産テスト、または予測可能なバーストワークロード中にGPUの可用性を確保するのに役立ちます。この予約ワークフローはシンプルで柔軟性があり、インスタンスの種類、数量、期間、希望する時間窓を選択して利用可能な容量オファリングを検索できます。適切なオファリングが見つかったら、Amazon Resource Name (ARN) を生成する予約を作成できます。これは、保証された容量へのキーとなります。透明性の高い価格設定モデルは、予算計画を支援し、チームが評価指標とモデルのパフォーマンスに集中できるようにします。

インフレンスエンドポイントの更新、スケーリング機能、シームレスな容量管理により、トレーニングプランは時間制約のあるインフレンスワークロードに対してGPUの可用性とコストのコントロールを提供します。競争的なモデルベンチマークの実行、限定期間のA/Bテストの実施、製品リリース時の予測可能なトラフィックスパイクの処理など、さまざまなシナリオに適しています。トレーニングプランは、1週間または1か月間の評価プロジェクトを実施するデータサイエンスチームにとって特に価値があります。このアプローチにより、特定のGPUインスタンスを事前に予約することで、オンデマンド可用性の不確実性を最小限に抑え、予測可能なプロジェクト期間と予算を実現できます。

SageMaker AIはまた、インフレンスコンポーネントの強化を通じて、インフレンス経済を最適化します。これらのコンポーネントは、エンドポイント内のモデル推論を管理するためのモジュール方式を提供します。各インフレンスコンポーネントは、独立して作成、更新、スケールできる独自の計算、メモリ、モデル構成単位です。これにより、より柔軟な生産エンドポイントの運用が可能になります。複数のモデルを展開し、容量を迅速に調整し、エンティレエンドポイントを再展開せずに安全にアップデートできます。リアルタイムまたは高スループットアプリケーションを実行するチームにとって、インフレンスコンポーネントは、推論ワークフローへの詳細な制御を提供します。

SageMaker AIインフレンスコンポーネントの3つの主要な強化により、生産環境での機能がさらに向上しています。これらの更新には、マルチAZ高可用性、マルチテナントワークロードのための制御された並行性、トラフィックスパイクへの迅速な対応を可能にする平行スケーリングが含まれます。これらは、AIのスケールアップをより回復力があり、予測可能で効率的なものにします。

EAGLE-3は、SageMaker AIに導入された新しい機能であり、生成型AI推論を加速させるために使用されます。この強化により、6つのモデルアーキテクチャがサポートされ、SageMaker提供のデータセットまたは独自のアプリケーション固有のデータを使用してパフォーマンスを最適化できます。このソリューションは、低レイテンシの生成型AIアプリケーションを大規模に配信するためのワークフローを簡素化し、生成品質を損なわないようにします。EAGLEは、外部のドラフトモデルに頼るのではなく、モデルの隠れ層から直接将来のトークンを予測することで動作します。これにより、より正確な予測と少ない拒否が実現されます。SageMaker AIは、モデルアーキテクチャに基づいてEAGLE-2とEAGLE-3を選択し、LlamaForCausalLM、Qwen3ForCausalLM、Qwen3MoeForCausalLM、Qwen2ForCausalLM、GptOssForCausalLM（EAGLE-3）、Qwen3NextForCausalLM（EAGLE-2）をサポートしています。ユーザーは、EAGLEモデルを最初からトレーニングしたり、既存のモデルを再トレーニングしたり、SageMaker JumpStartから提供されている事前学習済みモデルを使用したりできます。最適化ジョブ中に自動的にベンチマーク結果が生成され、TTFT（最初のトークンまでの時間）やスループットなどの指標におけるパフォーマンス改善が明確になります。

背景

Amazon SageMakerは、機械学習モデルの開発、トレーニング、デプロイを支援するクラウドベースのサービスです。2025年、SageMaker AIは、容量、価格パフォーマンス、監視、使いやすさの4つの側面で重要な改善を遂げました。このシリーズでは、これらの改善とその利点を詳しく説明します。

重要用語解説

Flexible Training Plans: トレーニングワークロードとインフレンスワークロードの両方にGPU容量を予約できるSageMakerの機能です。

[重要性]：高度なスケーラビリティと予測可能性を提供する

[具体例（あれば）]：モデル評価や限られた期間の生産テストに最適です。

Inference Components: SageMakerで、モデル推論を管理するためのモジュール方式を提供するコンポーネントです。

[重要性]：柔軟なエンドポイント運用とスケーラビリティを実現します。

[具体例（あれば）]：複数のモデルを展開したり、容量を調整したりできます。

EAGLE-3: SageMaker AIに導入された新しい機能で、生成型AI推論を加速させるために使用されます。

[重要性]：低レイテンシの生成型AIアプリケーションの実装を可能にします。

[具体例（あれば）]：LlamaForCausalLMなどのモデルアーキテクチャに対応しています。

今後の影響

SageMaker AIの改善は、データサイエンスチームがより効率的にモデルを開発、トレーニング、デプロイできるようにすることで、AIアプリケーションの開発と展開に大きな影響を与えます。柔軟なトレーニングプランとインフレンスコンポーネントにより、スケーラビリティと予測可能性が向上し、EAGLE-3は生成型AI推論のパフォーマンスを向上させます。

Information Sources:

https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-ai-in-2025-a-year-in-review-part-1-flexible-training-plans-and-improvements-to-price-performance-for-inference-workloads/