Zyphra社、高速かつ高精度な視覚言語モデル「Zamba2-VL」を公開:Transformerを超える新アーキテクチャを採用
AI開発企業のZyphraは、高性能な視覚言語モデル(VLM)「Zamba2-VL」を一般に公開しました。このモデルの最大の特徴は、主流のAIアーキテクチャである「Transformer」と、2024年に発表された革新的な構造を持つ「Mamba2」を組み合わせたハイブリッドアーキテクチャ「SSM-Transformer」を採用している点です。
Zamba2-VLは、このSSM-Transformerベースの設計により、同規模の従来のTransformerベースモデルと同等以上の品質を維持しつつ、処理速度の大幅な向上を実現しています。具体的には、高速な画像認識処理が可能であるとされています。
公開されたモデル群には、「Zamba2-VL-1.2B」(20億パラメーター)、「Zamba2-VL-2.7B」(27億パラメーター)、そして最大規模の「Zamba2-VL-7B」(70億パラメーター)の3種類が含まれます。これらはすべてオープンモデルとして提供され、Apache License 2.0のもとで利用可能です。
Zyphraは、このアーキテクチャ革新を通じて、AI処理における速度と精度の両立という課題を解決し、研究開発コミュニティに貢献することを目指しています。
背景
大規模言語モデル(LLM)の進化において、計算効率と性能の両立は常に重要な課題でした。従来のTransformerアーキテクチャは高い性能を発揮する一方、処理速度がボトルネックとなることが指摘されていました。本ニュースは、この課題を解決するため、新しいハイブリッドな構造を採用したVLMが登場したことを報じています。
重要用語解説
- 視覚言語モデル(VLM): テキストだけでなく画像などの視覚情報も理解し、処理できるAIモデルのこと。マルチモーダルなデータ処理能力を持つのが特徴です。
- Transformer: 現在主流の深層学習アーキテクチャの一つで、特に自然言語処理分野で革命的な成果を上げた構造。アテンション機構が核となっています。
- SSM-Transformer: 「Structured State Space Model(状態空間モデル)」とTransformerを組み合わせたハイブリッドなアーキテクチャ。高速性と高い表現力を両立させることを目的としています。
今後の影響
Zamba2-VLの登場は、VLM分野における計算効率の新たなベンチマークを設定する可能性があります。SSM-Transformerのような革新的なアーキテクチャが実用化されることで、より大規模で高性能なAIモデルを、これまで以上に高速かつ低コストで運用できるようになり、産業応用が一層加速すると予想されます。