動画学習AI「FDM-1」、PC操作をマスター!自動運転にも応用可能
サンフランシスコに拠点を置くStandard Intelligenceが、1100万時間分の動画を学習した新しいAIモデル「FDM-1」を発表しました。従来のPC操作AIはスクリーンショットをベースにした学習方法で、長時間のタスクや複雑な操作には苦手意識がありました。しかし、FDM-1はビデオ編集の様子やコーディングのライブ配信など、インターネット上の動画から学習することで、従来の方法とは異なるアプローチを実現しました。さらに、自動アノテーションシステム「IDM」を開発し、大量の動画データの処理を効率化しました。その結果、FDM-1は2時間の動画を100万トークンに圧縮できるという高効率性を誇り、CGアプリやCADアプリなどの長時間の前後関係が重要なアプリケーションも自動実行できるようになりました。また、車の操作を矢印キーでの操作に置き換えることで、自動運転システムへの応用も期待されています。
背景
近年、AIによるPC操作の研究が活発化しており、様々なモデルが登場しています。しかし、従来のモデルはスクリーンショットをベースにした学習方法に限界があり、複雑なタスクや長時間作業には向いていませんでした。FDM-1は動画学習という新しいアプローチを取り入れることで、従来のモデルを超える性能を実現しました。
重要用語解説
FDM-1: Standard Intelligenceが開発した、動画を学習素材としてPC操作を行うAIモデル。高効率な動画圧縮と複雑なタスク実行が可能である点が特徴です。
IDM: FDM-1の開発で使用された自動アノテーションシステム。動画から画面上の変化と操作内容を紐付け、アノテーション作業を自動化します。
VLM(視覚言語モデル): スクリーンショットを学習素材としてPC操作を行うAIモデル。従来のPC操作AIに多く用いられていましたが、長時間のタスクや複雑な操作には苦手意識がありました。
トークン: テキストデータの単位。文章を分割して表現する際に使用され、FDM-1は少ないトークンで長い動画を表現できる高効率性を誇ります。
アノテーション: AI学習に用いるためのデータラベル付け作業。従来のPC操作AIでは大量の人工的アノテーションが必要でしたが、FDM-1ではIDMによって自動化されました。
今後の影響
FDM-1は、動画学習による高効率性と複雑なタスク実行能力により、従来のPC操作AIを超える性能を発揮します。CGアプリやCADアプリなどの長時間作業にも応用でき、自動運転システムへの転用も期待されています。この技術革新は、AIを活用した業務効率化や新たなサービス創出に大きく貢献する可能性があります。