RAGの評価指標を自前実装し、5つの手法を横並び比較:MRRとキーワードヒット率の重要性
本記事は、RAG(Retrieval-Augmented Generation)システムの性能を定量的に評価するため、Recall@K、MRR(Mean Reciprocal Rank)、および独自開発のキーワードヒット率の3つの指標を自前実装し、これまでの4つのRAG実装(Normal, Agentic, Hybrid, Smart Chunk)と、それらを組み合わせた「Smart+Hybrid RAG」の合計5つの手法を比較した結果を報告している。従来の評価が定性的な観察に留まっていたのに対し、本記事では「どのRAGが本当に優れているのか」「チャンキング手法の改善効果はどうか」を数値で検証した。
評価指標の解説として、Recall@Kは「正解ファイルが上位K件に入っているか(網羅性)」、MRRは「正解が何位に来たか(順位精度)」、キーワードヒット率は「取得チャンクの内容が十分か(内容充実度)」をそれぞれ測定する。特に、Recallが満点でもMRRが低い場合(ロスト・イン・ザ・ミドル問題)や、キーワードが不足している場合(内容の薄さ)のリスクを指摘している。
比較結果のハイライトとして、全手法がRecall@4で1.0000という高い網羅性を達成したものの、MRRとキーワードヒット率に明確な差が見られた。特に、Hybrid RAG(段落+BM25+RRF)はMRR平均が1.0000と最も高い精度を示し、Smart Chunk RAGおよびSmart+Hybrid RAGはキーワードヒット率の平均値が0.5000と高い内容充実度を達成した。この結果から、単に正解ファイルを取り込むだけでなく、正解を上位に配置し(MRR)、かつ必要なキーワードを網羅したチャンクを取得すること(KW Hit)の重要性が示唆されている。特に、Smart Chunk(見出し単位)によるチャンキングは、キーワードヒット率の改善に大きく貢献していることが確認された。
背景
RAG(Retrieval-Augmented Generation)は、大規模言語モデル(LLM)の知識を外部データベース(ドキュメント)に補完することで、ハルシネーションを防ぎ、最新情報に基づいた回答を可能にする技術である。本記事は、単なる実装の紹介に留まらず、複数のRAG手法を「評価指標」という客観的な視点から比較検証するという、より高度な研究段階にある。
重要用語解説
- RAG: Retrieval-Augmented Generationの略。外部の知識ベースから関連情報を検索(Retrieval)し、それを基にLLMが回答を生成(Generation)する仕組み。
- Recall@K: 検索結果の上位K件の中に、正解となるドキュメントが少なくとも1件含まれているかを測る指標。網羅性を評価する。
- MRR: Mean Reciprocal Rankの略。正解となる情報が検索結果の何位に現れたかを測る指標。順位の精度を評価する。
今後の影響
本検証結果は、RAGシステムの設計において、単なる検索成功率(Recall)だけでなく、情報の「順位」と「内容の密度」を考慮する必要性を示した。今後は、MRRやキーワードヒット率といった多角的な評価指標を組み込むことが、実用的なRAGシステム開発の標準となることが予想される。特に、チャンキング戦略の最適化が重要となる。