画像とテキストを扱う埋め込みモデル(Embedding)の最新ベンチマーク:GeminiやQwenが注目される
本記事は、RAG(検索拡張生成)やマルチモーダル検索の精度に不可欠な「Embeddingモデル」について、2026年4月時点での最新ベンチマーク結果を詳細に分析したものです。特に画像とテキストの両方を扱うマルチモーダルEmbeddingモデルに焦点を当てています。
一般的な評価指標としてMTEBやMMEBがありますが、本記事ではMilvusのページにあるCCKM(Cross-modal, Cross-lingual, Key information, MRL)というベンチマークを参考にしています。このベンチマークには注目度の高いGemini Embedding 2が含まれています。
テキストと画像を同じベクトル空間に埋め込む比較の結果、Qwen3-VL-2BがR@1スコア0.945でトップであり、次いでGemini Embedding 2(0.928)、Voyage Multimodal 3.5(0.900)の「3強」が確認されました。これらのモデルはそれぞれオープンソース、クローズドAPIという特性を持ちます。
さらに、次元数を落とした際の性能を測るMRL(Matryoshka Representation Learning)の観点では、Gemini Embedding 2が最も優秀な劣化率を示しています。総合評価においても、Qwen3-VL-2BはCross-Modalで最高スコアを記録し、Gemini Embedding 2はCross-LingualやKey Infoで高い性能を発揮しています。
結論として、筆者は「Voyage Multimodal 3.5」が無難に最も優れている可能性を示唆していますが、オープンソース性を重視するならQwen3-VL-2B、Google Cloud環境での導入の容易さを求めるならGemini Embedding 2が有力な選択肢であるとまとめています。ただし、Gemini Embedding 2は当時パブリックプレビュー版であり、後にGA(一般提供)となる点に注意が必要です。
背景
RAG(検索拡張生成)やマルチモーダル検索といった高度なAI機能を実現するためには、テキストや画像などの異なる種類のデータを共通のベクトル空間に埋め込む「Embeddingモデル」が必須です。この記事は、その性能を客観的なベンチマーク指標を用いて比較し、最適なモデル選定のための指針を提供しています。
重要用語解説
- RAG(検索拡張生成): Retrieval-Augmented Generationの略称。外部データベースから関連情報を取得し、それを基に回答を生成するAI技術であり、情報の正確性向上に役立ちます。
- Embeddingモデル: テキストや画像を数値ベクトル(埋め込み)に変換するAIモデル。これにより、異なる種類のデータも数学的に距離で比較可能になります。
- マルチモーダル: 複数のモダリティ(様式)のデータを扱う能力。本記事では、テキストだけでなく画像や動画を同時に処理できることを指します。
今後の影響
Embeddingモデルの選定は、AIアプリケーション全体の性能とコストに直結するため、非常に重要です。各社の最新ベンチマーク結果が公開されることで、開発者は自社のユースケース(オープンソースかAPI利用かなど)に応じて最適な技術を選択できるようになり、AIサービスの品質向上を加速させると予想されます。