テクノロジー注目度 68

AIによる個人開発学習：RAG構築の高度化と課題（ベクトル検索の精度向上を目指して）

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

本記事は、AIを活用した個人開発学習の第4日目として、RAG（Retrieval-Augmented Generation）システムの構築をより実践的なレベルに引き上げる過程を詳細に記録している。学習の目的は、外部データベースに頼らず、Pythonのライブラリ`numpy`を用いて簡易的なベクトル検索エンジンを組み込むことである。RAGの基礎知識として、「チャンク分割」（参考資料を意味のある塊に分ける）、「埋め込み（Embedding）」（文を多次元ベクトルに変換）、「ベクトル検索」（質問と資料のベクトルの類似度を計算）の3点が解説された。

当初のプログラムでは、参照資料（講義ノート）を1行ずつ「チャンク」に分割し、ユーザーの質問（「DCKGってどうやって暗号鍵を作っているの？」）をベクトル化した後、各チャンクとの「コサイン類似度」を計算し、最も類似度の高いチャンクをLLMへのコンテキストとして渡す仕組みを実装した。しかし、この初期段階では、質問の意図（DCKGの仕組み）とは異なる、関連性の低い情報（例：「このプロトコルでは、通信のたびに...」）が最も類似度が高いと判定されてしまうという課題が生じた。

この課題に対し、筆者はチャンク分割を1行ごとから2行のペア（文脈保持）へと改良を試みたが、結果は大きく変わらなかった。最終的に、筆者は、RAGシステムの実務的な課題として、埋め込み（Embedding）の生成に、チャット用のLLM（Qwen2.5:3b）を使用することが不適切であるという結論に至った。専門家（Gemini）の助言に基づき、今後は「Embedding専用のモデル」を使用する必要があるという形で、学習を次回に持ち越すことを宣言し、記事を締めくくっている。

背景

RAG（Retrieval-Augmented Generation）は、大規模言語モデル（LLM）が持つ知識の限界を、外部の信頼できる情報源（ドキュメントなど）を参照することで補完する技術である。本記事は、このRAGの核となる「検索（Retrieval）」部分、特にベクトルデータベースを用いた類似度検索の実装と、その精度向上という技術的な課題解決の過程を記録している。

重要用語解説

埋め込み(Embedding): テキスト（文）を、意味的な情報を保持した多次元の数値配列（ベクトル）に変換するプロセス。これにより、意味的に近い文はベクトル空間上で近い位置に配置される。
コサイン類似度: 2つのベクトルが示す「向き」の近さを測る指標。値が1に近いほど、2つのベクトルが同じ方向（つまり、意味的に非常に近い）であることを示す。
チャンク分割: 長いドキュメントやテキストを、意味のまとまりを保ちながら、適切なサイズの小さな塊（チャンク）に分割すること。RAGの検索精度を左右する重要な前処理工程である。

今後の影響

本記事で指摘された「Embedding専用モデルの必要性」は、RAGシステムの実装において非常に重要な知見である。単なるLLMの埋め込み機能を使うと、単語の構造や文体といった表面的な情報に引っ張られやすく、真に求められる「意味」の抽出が困難になる可能性がある。今後のRAG開発では、専用モデルの導入が必須となる。

Information Sources:

https://qiita.com/shoichon/items/4fe21d067282008aa5fa