テクノロジー注目度 73

LLMの構造化出力評価の新ベンチマーク「SOB」が発表：単なるJSON生成以上の精度を測定

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

本記事は、大規模言語モデル（LLM）が非構造化データ（請求書、医療記録、会議録など）から構造化データを抽出する際の、決定論的（deterministic）な出力能力を評価するための新しいベンチマーク「SOB（Structured Output Benchmark）」の導入について詳述している。従来のベンチマークは、単にJSON形式の妥当性（Schema compliance）や単一ソースからの値の正確性のみを評価するに留まり、実運用で発生する「値の誤り」や「構造の不備」を見落としていたという。

SOBは、このギャップを埋めるため、テキスト、画像（OCR）、音声（会議録）の3つのモダリティ（様式）すべてで構造化出力を評価する。評価は、人間が検証した「グラウンドトゥルース（正解データ）」と、JSONスキーマに基づいて行われる。特に重要な指標は「Value Accuracy（値の正確性）」であり、これはダウンストリームシステムが人間によるレビューなしに信頼できるフィールドの割合を示す。SOBは、単なるJSONパース成功率（JSON Pass Rate）だけでなく、値の正確性、型安全性、構造網羅性、根拠の忠実性（Faithfulness）など、合計7つの詳細なメトリクスでモデルを評価する。

ベンチマークの結果、GPT-5.4が総合スコア0.870でトップに立ち、GLM-4.7、Qwen3.5-35Bなどが僅差で続いている。注目すべきは、多くのモデルがJSONパース成功率（97%以上）は高いものの、実際の「Value Accuracy」が15〜30ポイントも低いという大きなギャップが示された点である。また、モダリティ別では、テキストが最も評価しやすく、音声（Audio）が最も困難であり、Gemini-2.5-Flashが音声モダリティで最高の値の正確性（23.7%）を達成しているなど、モデルの強みが様式によって異なることが明らかになった。

背景

LLMの利用が拡大するにつれ、非構造化データ（PDF、画像、音声など）からデータベース形式の構造化データを抽出するニーズが高まっている。しかし、既存の評価基準は、単にJSON形式が正しいかという表面的なチェックに留まり、実務で最も重要な「抽出された値が本当に正しいか」という本質的な検証ができていなかったため、本ベンチマークが求められた。

重要用語解説

LLM: 大規模言語モデル（Large Language Model）の略称。大量のテキストデータで学習されたAIモデルであり、文章生成やデータ抽出など多岐にわたるタスクに利用される。
構造化データ: データが特定の形式（例：JSON、表形式）に整理され、機械が処理しやすい状態のデータ。非構造化データ（自由な文章）を整理したものである。
Value Accuracy: 構造化出力において、抽出された個々の値（リーフ値）が、人間が検証した正解データと完全に一致している割合。実運用における信頼性の最も重要な指標とされる。
影響: 本ベンチマークの導入は、LLMを用いたデータ処理パイプラインの信頼性基準を大幅に引き上げる。今後は、単に「JSONが生成できる」という能力だけでなく、「どの程度正確に、どの様式から情報を抽出できるか」という実用的な精度が、モデル選定の決定的な要素となることが予想される。特に音声や画像からの抽出能力の向上が今後の課題となる。

Information Sources:

https://interfaze.ai/blog/introducing-structured-output-benchmark