未経験者がVRAM 16GB環境でAIキャラの台本生成に挑む:最初の壁は「VRAM不足」だった
本記事は、プログラミング未経験者が、オリジナルAIキャラクター「イーサ・メモリア」のYouTube動画を完全ローカル環境で自動生成するデスクトップアプリの開発過程を記録したものです。このアプリは、入力されたトピックに基づき、AIキャラクターが話す本格的な台本(JSON形式、感情タグ・SEタグ込み)を自動生成することを目的としています。
開発者は、まずLLMとしてQwen3.6:27Bを選択し、ローカル環境での動作を目指しました。しかし、本格的な台本生成エンドポイントを実装した際、「ガチャの歴史」というトピックでAPIを叩いても5分待っても応答がなく、最終的にタイムアウトするという問題に直面しました。これは、クラウドAPIに慣れた開発者にとって異常な現象でした。
調査の結果、真因はモデルのサイズにありました。Qwen3.6:27Bは量子化済み(Q4_K_M)でも17GBのサイズであり、VRAM 16GBに対して1GB超過していました。このため、モデルの一部がGPUのVRAMではなく、メインメモリ(RAM)にスワップされ、推論処理が極端に遅延していたことが判明しました。開発者は、この「動かない時は、まず状態を見る」というエンジニアリングの基本を学びました。
現時点での進捗として、台本生成までのパイプラインは稼働しており、トピック入力から本格台本(感情タグ・SEタグ付きJSON)の出力までを22秒で実現しています。今後は、音声WAV生成(TTS)と動画合成(FFmpeg)の実装が予定されています。記事は、このVRAMの壁を乗り越えた後、次に直面した「プロンプトによる人格の変動」や「抽象的な指示の難しさ」といった課題について、第2回で続くと予告しています。
背景
本記事は、AI技術(LLM、VTuber、動画合成)を組み合わせて、未経験者が自力でデスクトップアプリケーションを開発する過程を記録した「Build in Public」形式の技術ブログ記事です。AI技術のローカル環境での動作は、高性能なVRAMや適切なモデル選定が必須であり、開発初期段階で多くの技術的障壁に直面することが知られています。
重要用語解説
- VRAM: Video Random Access Memoryの略。グラフィックボード(GPU)に搭載される専用メモリであり、AIモデルの推論処理や画像生成の速度に直結する重要な要素です。
- LLM: Large Language Model(大規模言語モデル)の略。大量のテキストデータで学習されたAIモデルであり、文章の生成、要約、翻訳など、高度な言語処理を行います。
- 量子化: AIモデルのパラメータ(重み)を、より少ないビット数(例:32bitから4bit)で表現し直す技術。モデルサイズを大幅に削減し、ローカル環境での動作を可能にしますが、品質低下のリスクがあります。
今後の影響
本開発は、AI技術を専門知識のない一般ユーザーでもローカル環境で利用できる形に落とし込む可能性を示しています。特に、VRAMの制約やモデルの挙動といった技術的な課題を公開することで、同じ目標を持つ開発者やユーザーへの具体的な知見を提供し、AIクリエイティブツールの普及を加速させる可能性があります。今後の進捗が注目されます。