テクノロジー注目度 90

日本語LLM比較：VTuber台本生成で意外な結果

自作AI VTuber「自作VTuber」の台本生成に使う日本語LLMを、ローカル環境で7種類比較した記事です。

テスト対象は、rinna/ruri-7b-instruct, rinna/youri-7b-chat, rinna/japanese-gpt-neox-3.6b, LiquidAI/LFM2.5-1.2B-JP, Rakuten/RakutenAI-7B-instruct, llm-jp/llm-jp-3-3.7b-instruct, Qwen/Qwen2.5-7B-Instruct, elyza/Llama-3-ELYZA-JP-8B, tokyotech-llm/Llama-3.1-Swallow-8Bの計9モデルです。

テスト環境はArch Linux on WSL2、NVIDIA RTX 4070 (12GB) + GTX 1660 Ti、Python 3.12、PyTorch 2.9.1を使用しました。

テストプロンプトは「人間の脳の情報処理量について簡潔に説明してください」を基本に、VTuber台本生成のフォーマットにも対応できるかを評価しました。

結果として、elyza/Llama-3-ELYZA-JP-8Bとtokyotech-llm/Llama-3.1-Swallow-8Bが最優秀モデルとなりました。特に、tokyotech-llm/Llama-3.1-Swallow-8Bはエッジテスト（長文・複雑な制約・感情変化など）で65%の通過率を達成し、視聴者参加型の自然な文体を出力できる点が評価されました。

背景

近年、AI技術の発展により、日本語対応のLLM（言語モデル）が数多く開発されています。本記事では、これらのLLMをVTuber台本生成という実用的なタスクで比較し、最適なモデルを探求しています。

重要用語解説

LLM: Large Language Model (大規模言語モデル)。大量のテキストデータから学習し、人間のような文章理解と生成能力を持つAIモデルです。

[重要性]：本記事の中心的なテーマであり、様々なモデルが比較されています。

[具体例（あれば）]：GPT-3, BERT

VTuber: バーチャルYouTuber。コンピューターグラフィックスで作成されたキャラクターが動画配信を行うエンターテイメントです。

[重要性]：記事のテーマである台本生成の用途を明確にするために重要な用語です。

[具体例（あれば）]：ホロライブ, にじさんじ

Ollama: オープンソースのLLM実行フレームワーク。GPUを活用した高速な推論を実現します。

[重要性]：記事でモデルの実行環境として使用されているため、理解に必要です。

[具体例（あれば）]：Hugging Face Transformersとの連携

エッジテスト: AIモデルの能力を評価するためのテストケース。長文生成、複雑な制約、感情表現など、現実世界に近いタスクを想定したものです。

[重要性]：記事でモデルの性能比較に用いられているため、理解が必要です。

[具体例（あれば）]：メタ指示、短文制約

今後の影響

本記事は、日本語LLM開発者やVTuber制作に関わる人々に役立つ情報をもたらします。最適なモデル選択により、より自然で魅力的なVTuber台本が作成できるようになるでしょう。また、エッジテストの評価基準が示されているため、今後のLLM開発に貢献する可能性があります。

Information Sources:

https://zenn.dev/archfill/articles/lfm25-on-device-ai-review