日本語LLM比較:VTuber台本生成で意外な結果
自作AI VTuber「自作VTuber」の台本生成に使う日本語LLMを、ローカル環境で7種類比較した記事です。
テスト対象は、rinna/ruri-7b-instruct, rinna/youri-7b-chat, rinna/japanese-gpt-neox-3.6b, LiquidAI/LFM2.5-1.2B-JP, Rakuten/RakutenAI-7B-instruct, llm-jp/llm-jp-3-3.7b-instruct, Qwen/Qwen2.5-7B-Instruct, elyza/Llama-3-ELYZA-JP-8B, tokyotech-llm/Llama-3.1-Swallow-8Bの計9モデルです。
テスト環境はArch Linux on WSL2、NVIDIA RTX 4070 (12GB) + GTX 1660 Ti、Python 3.12、PyTorch 2.9.1を使用しました。
テストプロンプトは「人間の脳の情報処理量について簡潔に説明してください」を基本に、VTuber台本生成のフォーマットにも対応できるかを評価しました。
結果として、elyza/Llama-3-ELYZA-JP-8Bとtokyotech-llm/Llama-3.1-Swallow-8Bが最優秀モデルとなりました。特に、tokyotech-llm/Llama-3.1-Swallow-8Bはエッジテスト(長文・複雑な制約・感情変化など)で65%の通過率を達成し、視聴者参加型の自然な文体を出力できる点が評価されました。
背景
近年、AI技術の発展により、日本語対応のLLM(言語モデル)が数多く開発されています。本記事では、これらのLLMをVTuber台本生成という実用的なタスクで比較し、最適なモデルを探求しています。
重要用語解説
LLM: Large Language Model (大規模言語モデル)。大量のテキストデータから学習し、人間のような文章理解と生成能力を持つAIモデルです。
[重要性]:本記事の中心的なテーマであり、様々なモデルが比較されています。
[具体例(あれば)]:GPT-3, BERT
VTuber: バーチャルYouTuber。コンピューターグラフィックスで作成されたキャラクターが動画配信を行うエンターテイメントです。
[重要性]:記事のテーマである台本生成の用途を明確にするために重要な用語です。
[具体例(あれば)]:ホロライブ, にじさんじ
Ollama: オープンソースのLLM実行フレームワーク。GPUを活用した高速な推論を実現します。
[重要性]:記事でモデルの実行環境として使用されているため、理解に必要です。
[具体例(あれば)]:Hugging Face Transformersとの連携
エッジテスト: AIモデルの能力を評価するためのテストケース。長文生成、複雑な制約、感情表現など、現実世界に近いタスクを想定したものです。
[重要性]:記事でモデルの性能比較に用いられているため、理解が必要です。
[具体例(あれば)]:メタ指示、短文制約
今後の影響
本記事は、日本語LLM開発者やVTuber制作に関わる人々に役立つ情報をもたらします。最適なモデル選択により、より自然で魅力的なVTuber台本が作成できるようになるでしょう。また、エッジテストの評価基準が示されているため、今後のLLM開発に貢献する可能性があります。