AIモデルQwen3.5 9Bに東京科学大学の模擬試験を解かせた結果:詳細な採点と分析
本記事は、Alibaba Groupからリリースされた大規模言語モデル(LLM)「Qwen3.5 9B」の性能を検証したレポートである。筆者は、前回(東工大模試)の企画を引き継ぎ、2026年4月11日に公開された「ソリング模試3」(東京科学大学の模擬試験)を用いて、このAIモデルの学術的な実力を試した。検証は、RTX 3060 12GB、メモリ16GBの環境で行われ、システムプロンプトなし、4bit量子化、コンテキスト長131072という条件が設定された。
試験の結果、Qwen3.5 9Bは合計265点(2592秒、43分12秒)というスコアを獲得した。各大問における採点結果は以下の通りである。
* **大問1**: (1) 30/30点、(2) 30/30点と満点に近い高得点を獲得した。特に(1)では、内心の座標公式の使用が指摘されたが、問題文に禁止規定がないため減点は免れた。
* **大問2**: (1) 15/15点、(2) 20/20点と高得点。しかし、(3)では確率計算の省略により25点満点中20点、(4)では結論は正しいものの、計算過程の記述不足で25点満点中20点となった。
* **大問3**: (1) 10/10点、(2) 35点/50点と高得点。ただし、(2)では最大値・最小値の大小比較を近似値に基づいてしまった点が減点要素となった。
* **大問4**: (1) 15/15点、(2) 15/15点、(3) 10/15点、(4) 15/15点と、全体的に安定した成績を示した。ただし、(3)では周期性に関する言及が求められた。
* **大問5**: (1) 15/15点、(2) 15/15点と高得点。しかし、(3)では根拠の弱さが、(4)では微小な項を最終結論で消去した点が減点要素となった。
筆者は、今回の結果を総括し、「Qwen3に比べ、安定して日本語で答えてくれているように感じられる」と評価し、今後の「Qwen4」の動向に期待を寄せている。この検証は、AIモデルの学術的な応用可能性と、単なる知識の再現に留まらない、論理的思考や計算過程の正確性が求められる領域での課題を浮き彫りにしている。
背景
大規模言語モデル(LLM)の性能評価は、単なる知識の有無だけでなく、論理的思考力、計算能力、そして複雑な手順を追う能力が求められる。本記事は、最新のAIモデル(Qwen3.5 9B)を、大学レベルの模擬試験という厳格な環境に晒すことで、その実力を客観的に測定しようとする試みである。
重要用語解説
- 大規模言語モデル(LLM): 大量のテキストデータから学習し、人間のような自然な文章を生成するAIモデルの総称。GPTやQwenなどがこれに該当する。
- パラメータ: AIモデルが学習する際の重みや係数の数。一般的に、パラメータ数が多いほど、モデルが持つ情報量や複雑なパターンを記憶できるとされる。
- 量子化: AIモデルの計算に使用するデータの精度を意図的に下げる処理。モデルサイズを縮小し、計算速度の向上や動作環境の軽量化を目的とする技術である。
今後の影響
AIモデルが学術的な課題を解けるレベルに達したことは、教育分野や研究支援ツールとしての応用可能性を大きく高める。しかし、本検証が示すように、計算過程の省略や根拠の弱さといった「思考のプロセス」の再現が依然として課題であり、実用化にはさらなる改善が必要である。今後のモデル進化が注目される。