テクノロジー注目度 62

Zyphra社、高速かつ高精度な視覚言語モデル「Zamba2-VL」を公開：Transformerを超える新アーキテクチャを採用

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

AI開発企業のZyphraは、高性能な視覚言語モデル（VLM）「Zamba2-VL」を一般に公開しました。このモデルの最大の特徴は、主流のAIアーキテクチャである「Transformer」と、2024年に発表された革新的な構造を持つ「Mamba2」を組み合わせたハイブリッドアーキテクチャ「SSM-Transformer」を採用している点です。

Zamba2-VLは、このSSM-Transformerベースの設計により、同規模の従来のTransformerベースモデルと同等以上の品質を維持しつつ、処理速度の大幅な向上を実現しています。具体的には、高速な画像認識処理が可能であるとされています。

公開されたモデル群には、「Zamba2-VL-1.2B」（20億パラメーター）、「Zamba2-VL-2.7B」（27億パラメーター）、そして最大規模の「Zamba2-VL-7B」（70億パラメーター）の3種類が含まれます。これらはすべてオープンモデルとして提供され、Apache License 2.0のもとで利用可能です。

Zyphraは、このアーキテクチャ革新を通じて、AI処理における速度と精度の両立という課題を解決し、研究開発コミュニティに貢献することを目指しています。

背景

大規模言語モデル（LLM）の進化において、計算効率と性能の両立は常に重要な課題でした。従来のTransformerアーキテクチャは高い性能を発揮する一方、処理速度がボトルネックとなることが指摘されていました。本ニュースは、この課題を解決するため、新しいハイブリッドな構造を採用したVLMが登場したことを報じています。

重要用語解説

視覚言語モデル（VLM）: テキストだけでなく画像などの視覚情報も理解し、処理できるAIモデルのこと。マルチモーダルなデータ処理能力を持つのが特徴です。
Transformer: 現在主流の深層学習アーキテクチャの一つで、特に自然言語処理分野で革命的な成果を上げた構造。アテンション機構が核となっています。
SSM-Transformer: 「Structured State Space Model（状態空間モデル）」とTransformerを組み合わせたハイブリッドなアーキテクチャ。高速性と高い表現力を両立させることを目的としています。

今後の影響

Zamba2-VLの登場は、VLM分野における計算効率の新たなベンチマークを設定する可能性があります。SSM-Transformerのような革新的なアーキテクチャが実用化されることで、より大規模で高性能なAIモデルを、これまで以上に高速かつ低コストで運用できるようになり、産業応用が一層加速すると予想されます。

Information Sources:

https://gigazine.net/news/20260611-zamba2-vl-zyphra/