東京科学大が日本語能力強化AI「GPT-OSS Swallow」「Qwen3 Swallow」を公開
2026年2月20日、東京科学大学情報理工学院の岡崎研究室と横田研究室、国立研究開発法人産業技術総合研究所(産総研:AIST)の研究チームが、OpenAI GPT-OSSの日本語能力と思考力を強化した推論型大規模言語モデル「GPT-OSS Swallow」と、Alibaba Qwen3の日本語能力と思考力を強化した推論型大規模言語モデル「Qwen3 Swallow」を発表しました。
両モデルは継続事前学習(CPT)、教師ありファインチューニング(SFT)、強化学習(RL)という3段階の微調整を経て構築され、日本語タスクや英語タスクにおいて高い性能を達成しています。特に、「GPT-OSS Swallow」は総パラメータ数が20B以下のオープンな大規模言語モデルの中で最高性能を記録し、「Qwen3 Swallow」も同規模で比較したモデルの中でもトップクラスの成績を残しました。
公開されたパラメータはApache 2.0ライセンスで利用でき、商用・研究・個人的用途で自由にダウンロード・カスタマイズ・ホスティングすることが可能です。
背景
GPT-OSS SwallowとQwen3 Swallowは、日本語能力を強化した大規模言語モデルとして開発されました。これは近年、AI技術の進歩により、自然言語処理分野における日本語対応モデルへの需要が高まっていることを反映しています。研究チームは、既存の大規模言語モデルをベースに継続事前学習、教師ありファインチューニング、強化学習を用いて、日本語タスクと英語タスクにおいて高い性能を実現しました。
重要用語解説
GPT-OSS Swallow: OpenAI GPT-OSSを基盤とした、日本語能力と推論力を強化した大規模言語モデル。継続事前学習、教師ありファインチューニング、強化学習を用いて構築された。
[重要性]:本記事の主題となるAIモデルの一つであり、高い性能を達成している。
[具体例(あれば)]:日本語タスクと英語タスクにおいて、同規模のオープンな大規模言語モデルの中で最高性能を記録した。
Qwen3 Swallow: Alibaba Qwen3を基盤とした、日本語能力と推論力を強化した大規模言語モデル。GPT-OSS Swallowと同様に、継続事前学習、教師ありファインチューニング、強化学習を用いて構築された。
[重要性]:本記事の主題となるAIモデルの一つであり、高い性能を達成している。
[具体例(あれば)]:日本語タスクにおいて、同規模のオープンな大規模言語モデルの中で最高性能を記録した。
継続事前学習(CPT): 既存の知識やデータを基に、新しいデータでモデルをさらに訓練する手法。
[重要性]:GPT-OSS SwallowとQwen3 Swallowの開発において重要な役割を果たしている。
[具体例(あれば)]:日本語に関する知識や対話力を高めるために用いられた。
教師ありファインチューニング(SFT): ラベル付きデータを用いて、モデルのパラメータを調整する手法。
[重要性]:GPT-OSS SwallowとQwen3 Swallowの性能向上に貢献している。
[具体例(あれば)]:日本語タスクや英語タスクにおける特定のタスクの精度を高めるために用いられた。
今後の影響
GPT-OSS SwallowとQwen3 Swallowは、日本語処理能力の高いオープンソースの大規模言語モデルとして、研究者や開発者に新たな選択肢を提供します。これにより、日本語に対応したAIアプリケーションの開発が加速し、様々な分野で革新的な技術が生まれていくことが期待されます。