テクノロジー 注目度 73

NVIDIAがエージェントスキルで物理AI研究を加速:自動運転、ロボティクス、ビジョンAIの次世代を支援

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

NVIDIAは、CVPR(コンピュータビジョンパターン認識会議)において、物理AI(Physical AI)の研究開発を加速させるための新しいエージェントスキルを発表しました。このスキル群は、自動運転車、ロボット工学、ビジョンAIシステムの開発における主要な課題、すなわち「実世界のシームレスなワークフロー構築」を解決することを目的としています。

物理AI研究の課題は、単に高性能なモデルを開発することではなく、実世界のシーン再構築、エッジケースの生成、ポリシーの訓練、行動の評価、そして迅速な反復(イテレーション)という一連のプロセスを統合することにあります。これまでこれらのステップは個別のツールに分断されており、研究の速度を遅らせていました。

NVIDIAは、物理AIのためのオープンなフロンティアモデル「NVIDIA Cosmos 3」を発表し、ビジョン推論、世界理解、行動生成を統合する世界初のオムニモデルとしています。これに、物理AIスキル、NVIDIAライブラリ、シミュレーションフレームワークを組み合わせることで、研究者はモデルの能力をスケーラブルなエンドツーエンドのワークフローへと迅速に移行できます。

**自動運転分野の進展:** 自動運転研究における課題は、「ロングテール」の走行データ(稀な相互作用、特殊な路面、照明変化など)の収集です。NVIDIAの自動運転車スキルでは、フリートデータからシーン再構築を自動化し、合成シナリオを生成できます。特に「InstantNuRec」は、画像から高速な3Dガウシアン路面シーン再構築を可能にし、シミュレーションでの条件変化や故障モードの発見を可能にします。また、オープンソースの強化学習フレームワーク「NVIDIA AlpaGym」や、行動条件付き生成世界モデル「NVIDIA OmniDreams」が、シミュレーションループにフォトリアリスティックなレンダリングを追加し、開発を支援します。さらに、320億パラメータのVLAモデル「NVIDIA Alpamayo 2 Super」は、レベル4の安全でスケーラブルな展開を可能にします。

**ビジョンAI分野の進展:** ビジョンAIでは、視覚条件やオブジェクト状態の変化に対応する十分な制御されたデータセットの作成がボトルネックです。新しい「NVIDIA Metropolis」スキルは、AIエージェントを用いて、異常(アノマリー)を含む合成視覚シナリオを生成し、データ拡張や疑似ラベリングをサポートします。これにより、研究者は稀な視覚ケースを大量に作成し、モデルの応答性を評価できます。また、動画データからの洞察抽出には「NVIDIA Metropolis Blueprint for video search and summarization (VSS)」などが利用され、イベント検出や複雑なシーンの要約を自動化します。

**ロボティクス分野の進展:** ロボットの学習は反復が鍵であり、シミュレーション環境の構築やポリシーの展開が課題でした。NVIDIA Isaac Sim 6.0は、エージェントフレンドリーなスキルとコネクタを提供し、シーン準備からシミュレーション、ロボット学習までのワークフローを自動化します。さらに、医療ロボティクス向けに「Cosmos-H-Surgical-Simulator」が、実際の外科手術データから学習することで、シミュレーションと実環境のギャップを縮小し、自律的な外科タスク開発を支援しています。


背景

物理AI(Physical AI)は、単なるソフトウェア上のAIではなく、現実世界(物理的な環境)で動作し、行動するAIシステム(ロボット、自動運転車など)を指します。この分野の発展には、高度なシミュレーション環境、大量のデータ、そしてそれらを統合的に扱うワークフローが不可欠です。NVIDIAは、これらの要素を統合するプラットフォームを提供することで、研究開発のボトルネック解消を目指しています。

重要用語解説

  • 物理AI (Physical AI): 単にソフトウェア上のAIに留まらず、現実世界(物理的な環境)で動作し、行動するAIシステム全般を指します。ロボット工学や自動運転車がこれに該当します。
  • Cosmos 3: NVIDIAが開発した物理AIのためのオープンフロンティアモデル。ビジョン推論、世界理解、行動生成を統合し、物理AI開発の基盤となるオムニモデルです。
  • エージェントスキル (Agent Skills): AIエージェントが特定のタスク(例:シーン再構築、異常生成)を自律的に実行するための、ワークフローを自動化する機能やツール群を指します。

今後の影響

本技術の進展は、自動運転車や産業用ロボットのレベル4以上の実用化を劇的に加速させます。特に、シミュレーション環境でのデータ生成と検証が容易になることで、実機でのテスト回数を減らし、開発コストと時間を大幅に削減することが期待されます。社会インフラや医療分野への応用が加速するでしょう。