LLMの構造化出力評価の新ベンチマーク「SOB」が発表:単なるJSON生成以上の精度を測定
本記事は、大規模言語モデル(LLM)が非構造化データ(請求書、医療記録、会議録など)から構造化データを抽出する際の、決定論的(deterministic)な出力能力を評価するための新しいベンチマーク「SOB(Structured Output Benchmark)」の導入について詳述している。従来のベンチマークは、単にJSON形式の妥当性(Schema compliance)や単一ソースからの値の正確性のみを評価するに留まり、実運用で発生する「値の誤り」や「構造の不備」を見落としていたという。
SOBは、このギャップを埋めるため、テキスト、画像(OCR)、音声(会議録)の3つのモダリティ(様式)すべてで構造化出力を評価する。評価は、人間が検証した「グラウンドトゥルース(正解データ)」と、JSONスキーマに基づいて行われる。特に重要な指標は「Value Accuracy(値の正確性)」であり、これはダウンストリームシステムが人間によるレビューなしに信頼できるフィールドの割合を示す。SOBは、単なるJSONパース成功率(JSON Pass Rate)だけでなく、値の正確性、型安全性、構造網羅性、根拠の忠実性(Faithfulness)など、合計7つの詳細なメトリクスでモデルを評価する。
ベンチマークの結果、GPT-5.4が総合スコア0.870でトップに立ち、GLM-4.7、Qwen3.5-35Bなどが僅差で続いている。注目すべきは、多くのモデルがJSONパース成功率(97%以上)は高いものの、実際の「Value Accuracy」が15〜30ポイントも低いという大きなギャップが示された点である。また、モダリティ別では、テキストが最も評価しやすく、音声(Audio)が最も困難であり、Gemini-2.5-Flashが音声モダリティで最高の値の正確性(23.7%)を達成しているなど、モデルの強みが様式によって異なることが明らかになった。
背景
LLMの利用が拡大するにつれ、非構造化データ(PDF、画像、音声など)からデータベース形式の構造化データを抽出するニーズが高まっている。しかし、既存の評価基準は、単にJSON形式が正しいかという表面的なチェックに留まり、実務で最も重要な「抽出された値が本当に正しいか」という本質的な検証ができていなかったため、本ベンチマークが求められた。
重要用語解説
- LLM: 大規模言語モデル(Large Language Model)の略称。大量のテキストデータで学習されたAIモデルであり、文章生成やデータ抽出など多岐にわたるタスクに利用される。
- 構造化データ: データが特定の形式(例:JSON、表形式)に整理され、機械が処理しやすい状態のデータ。非構造化データ(自由な文章)を整理したものである。
- Value Accuracy: 構造化出力において、抽出された個々の値(リーフ値)が、人間が検証した正解データと完全に一致している割合。実運用における信頼性の最も重要な指標とされる。
- 影響: 本ベンチマークの導入は、LLMを用いたデータ処理パイプラインの信頼性基準を大幅に引き上げる。今後は、単に「JSONが生成できる」という能力だけでなく、「どの程度正確に、どの様式から情報を抽出できるか」という実用的な精度が、モデル選定の決定的な要素となることが予想される。特に音声や画像からの抽出能力の向上が今後の課題となる。