テクノロジー注目度 60

xAIの動画生成AI「Grok Imagine 1.5 Preview」がベンチマークで世界トップクラスの実力を証明

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

xAIは、画像から高品質な動画を生成するAIモデル「Grok Imagine 1.5 Preview」を発表しました。このモデルは、複数の業界ベンチマークにおいて高い性能を示し、特にVideo Arena（音声あり）ではSeedance 2.0に次ぐ世界2位のスコアを獲得しました。また、Design ArenaのImage to Video部門ではElo 1357を記録し、Seedance 2.0を上回る堂々の世界1位となりました。

Grok Imagine 1.5 Previewは、静止画を入力とし、プロンプト（自然言語による指示）に基づいて映画のような動画に変換します。単なる再解釈ではなく、元の画像が持つディテールやライティングを忠実に引き継ぐ点が特徴です。ユーザーは開始フレームと動きの説明を行うだけで、カメラワーク、雰囲気、物理法則を含む複雑なシーンの生成が可能です。

具体的な性能比較事例として、ジッパーのスムーズな動作や、化粧後の女性の行動（鏡を見る、バッグを持つなど）、宙返りといったアクション性の高いプロンプトを用いて複数のAIモデルと比較が行われました。この際、Grok Imagine 1.5 Previewは、GoogleのVeo 3.1などが苦手とするような、物理的な連続性や音響同期を伴う複雑な動き（例：ジッパーのスムーズな引き上げと連続する音）において優位性を示しました。

なお、このプレビュー版を利用するにはxAI API経由が必要であり、動画生成にはコストが発生します。また、音声なし版のVideo Arenaでは世界3位にランクインするなど、多角的な評価でその高い実力が証明されています。

背景

近年、画像やテキストから高品質な動画を生成するAI技術（Generative AI）が急速に進展しています。特に「Image to Video」は、静止画に動きを与えることで、映画制作やコンテンツ生成のプロセスを一変させる可能性を秘めています。本ニュースは、xAIがこの分野で具体的な成果を出したことを示しています。

重要用語解説

動画生成AI: テキストや画像などの入力データから、新しい動画クリップを自動的に作成する人工知能技術のこと。映画制作やコンテンツマーケティングに革命をもたらすと期待されています。
ベンチマーク: 特定の性能を持つ製品やシステムが、客観的かつ標準化されたテスト環境で評価される指標。AIの能力を公平に比較するために用いられます。
プロンプト: 生成AIに対して「こうしてほしい」と指示を与えるためのテキスト入力のこと。動画の内容や動き、雰囲気などを詳細に記述します。

今後の影響

Grok Imagine 1.5 Previewのような高性能な動画生成AIは、映像制作のコストと時間を劇的に削減し、クリエイティブ産業全体に大きな変革をもたらすでしょう。今後の展開としては、より長い尺、高解像度化に加え、リアルタイムでの編集やインタラクティブな利用が期待されます。

Information Sources:

https://gigazine.net/news/20260609-grok-imagine-1-5-preview-artificial-analysis-video-arena/