チャットボットを超えて:モデル自身の失敗を利用した直接選好最適化(DPO)の新たな応用
本記事は、大規模言語モデル(LLM)の構造化文書抽出(OCR)における特定の失敗モード、「テキスト退化(Text Degeneration)」を克服するための新しいトレーニング手法、直接選好最適化(DPO)の応用について詳細に述べている。従来のOCRモデル(DharmaOCR)は、ブラジルポルトガル語の構造化文書抽出タスクで評価され、テキスト退化率が主要な評価指標の一つとされた。テストの結果、オープンソースのモデル群は、退化率が1%未満から33%を超える範囲でばらつきが見られ、教師ありファインチューニング(SFT)によって改善はされるものの、実用レベルに到達することは困難であることが示された。これは、SFTが「正しい出力」を最適化するものの、退化を明示的に罰しない構造的な限界があるためである。そこで、筆者らはSFTの後にDPOを適用する第二のトレーニングステージを導入した。このDPOは、従来のチャットボットの「有用性」や「無害性」といった主観的な人間の判断に基づくアライメントとは異なり、OCRという客観的なタスクに特化している。具体的には、モデルが生成した出力のうち、「正しい転写」を「選択された出力(Chosen)」とし、「退化ループ」を「拒否された出力(Rejected)」とする二値の選好シグナルを構築した。この退化ループを、単なるノイズとして除去するのではなく、DPOの「負のトレーニングシグナル」として意図的に利用した点が画期的である。DPOは、この選好シグナルを用いてモデルを訓練することで、テキスト退化を平均59.4%削減し、最高のケースでは87.6%もの大幅な改善を達成した。このアプローチは、モデルの失敗モードを直接的に罰することで、従来のSFTでは解決できなかった分布空間の幾何学的な問題を解決するものであると結論付けている。
背景
大規模言語モデル(LLM)は、テキスト生成タスクにおいて高い性能を示すが、構造化文書抽出(OCR)のような客観的タスクでは「テキスト退化」という固有の失敗モードに悩まされる。従来のファインチューニング(SFT)ではこの退化を抑制しきれないという構造的な課題が存在したため、より高度な最適化手法が必要とされた。
重要用語解説
- テキスト退化(Text Degeneration): LLMがテキストを生成する際に、同じ単語やフレーズを繰り返し出力し続ける現象。OCRのような構造化タスクにおいて、モデルの信頼性を著しく低下させる主要な失敗モードである。
- 直接選好最適化(DPO): モデルの出力を、人間やタスクの基準に基づいた「選好ペア(Chosen/Rejected)」を用いて最適化する手法。従来のRLHFに代わる、より効率的なアライメント技術である。
- 教師ありファインチューニング(SFT): モデルに特定のタスク(例:OCR)のデータセットを用いて追加学習させるプロセス。モデルの基本的なタスク適合性を高めるが、特定の失敗モードの抑制には限界がある。
今後の影響
本手法は、LLMを構造化データ抽出のような客観的かつ失敗モードが明確なタスクに応用する際の新たな標準を確立する。特に、モデル自身の失敗例を「負の学習信号」として利用する点は、アノテーションコストを大幅に削減し、実用的なOCRシステムの精度向上に大きく貢献すると予想される。今後のLLMの産業応用における信頼性向上に不可欠な技術となる。