テクノロジー注目度 57

Claude CodeにIQテストを解かせた結果、総合IQは118点に留まる：AIの知能の限界を分析

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

筆者が個人開発した全30問のIQテスト（数値推理、空間認識、論理推理、言語理解の4分野で構成）を用いて、大規模言語モデル（LLM）のClaude Code（Claude Opus 4）の知能を試した。実験の結果、Claude Codeの総合IQスコアは118点となり、これは人間の上位15%に相当する「平均より明らかに高い」レベルであったが、筆者が期待した135点以上には届かなかった。分野別スコアでは、数値推理（4/4点）と言語理解（2/2点）で満点を獲得し、論理推理（7/8点）でも高い性能を示した。しかし、最も大きな課題が浮き彫りになったのが「空間認識」の分野であり、16問中9問正解（56%）に留まった。Claude Codeが間違えたパターンを分析したところ、主に「回転の方向性の誤認」「図形の視覚的な合成（XOR的な処理）の苦手さ」、そして「2Dから3Dへの空間変換」といった、視覚的なパターン認識や空間操作が求められる問題で破綻することが判明した。これは、LLMが本質的にテキスト（トークン列）を処理するモデルであり、視覚情報を言語的な記述に変換する過程で空間的な情報が失われるためであると考察されている。また、他のAIモデルとの比較では、Claude CodeがGPT-4o（IQ 112）やGemini 2.0 Pro（IQ 108）よりも高いスコアを記録したが、空間認識の弱点は全モデル共通の課題であると結論づけている。筆者は、IQテストが測定する知能と、LLMが得意とするコーディングやテキスト推論の知能は測定軸が異なり、「AIはIQ 200」といった単純な評価はできないと警鐘を鳴らしている。

背景

本記事は、AIの知能レベルを客観的に測定するため、筆者が独自に開発したIQテストをLLMに適用した実験レポートである。LLMの性能が飛躍的に向上する中で、その知能が人間の知能テストでどのレベルに相当するのか、その限界点を探る試みである。

重要用語解説

大規模言語モデル（LLM）: 大量のテキストデータから学習し、人間のような自然な文章生成や推論を行うAIモデルの総称。本記事ではClaude Codeがこれに該当する。
空間認識: 図形や物体が持つ空間的な関係性や、回転、重ね合わせなどを視覚的に捉え、処理する能力。LLMが苦手とする分野とされる。
ワーキングメモリ: 一時的に情報を保持し、それを基に推論を行う脳の機能。複雑な多段階の推論問題で限界が指摘されることがある。

今後の影響

本結果は、AIの知能が特定のフォーマット（IQテスト）に限定されるものであり、LLMが苦手とする「視覚的な空間操作」という根本的な弱点を明確にした。今後は、AIの能力を評価する際、単なるテキスト推論能力だけでなく、マルチモーダルな空間処理能力の向上と、その限界点を克服する研究が重要となる。

Information Sources:

https://zenn.dev/iq_tips_lab/articles/f7ce32458dc8db