テクノロジー注目度 62

Claude Code障害時の代替策：ローカルLLM（Qwen3.5）で完全動作環境を構築する手順

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

本記事は、AIコーディング支援ツール「Claude Code」が障害などで利用できない場合に備え、ローカルLLM（大規模言語モデル）を用いて代替環境を構築した詳細な手順をまとめた技術解説です。筆者は、単にローカルLLMを動かすだけでなく、Claude Codeの対話モード（TUI）を完全に模倣し、実用的なコーディング支援環境を構築することに成功しました。

構築の核となるのは、`llama.cpp`と「Qwen3.5-35B-A3B」というモデル（Unslothの動的量子化版）の組み合わせです。この構成により、Apple MacBook Pro M2 Max環境において、初回応答時間を1分30秒に短縮し、プロンプト処理速度を最大763 tok/sという高い水準で実現しました。

初期の試みとしてOllamaを使用しましたが、応答に2〜8分かかるなど実用性に欠ける問題がありました。この失敗から、筆者は`llama.cpp`の直接実行に切り替える必要性を痛感しました。最終的な成功には、単なるモデルの実行以上の、複数の「ハマりポイント」の克服が不可欠でした。

特に重要な設定として、①Claude Codeが使用するHaiku/Sonnet/Opusの全モデルティアをローカルモデルで上書きする環境変数設定、②`llama.cpp`が拒否する実験的ベータヘッダーの無効化、③対話モードがベースURLを無視する問題を回避するための環境変数設定、④APIキーの事前承認、⑤OAuth認証トークンとの競合を防ぐための`--bare`フラグの使用、といった高度な設定が求められました。これらの手順を統合し、最終的な`.zshrc`関数として提供することで、ユーザーはClaude Codeの障害時でも、高いパフォーマンスと安定性を備えたローカル代替環境を構築することが可能となります。

背景

AIコーディング支援ツール「Claude Code」は、Anthropic社のAPIを利用して動作する高度な開発環境です。しかし、API障害やサービス側の仕様変更により利用できなくなるリスクがあります。本記事は、そのサービス停止時や障害時に備え、オープンソースのローカルLLM（Qwen3.5など）を用いて、機能的な代替環境を構築する技術的な試みです。

重要用語解説

ローカルLLM: インターネット接続を必要とせず、自身のPC上で動作する大規模言語モデル。プライバシー保護やオフライン利用が可能。
llama.cpp: 大規模言語モデル（LLM）を様々なハードウェア（特にCPUやApple Silicon）で効率的に実行するためのライブラリ。モデルの実行速度向上に貢献する。
量子化: LLMのモデルサイズを削減し、メモリ使用量や計算負荷を軽減する技術。モデルの性能を維持しつつ、より多くのデバイスで動作可能にする。
影響: 本技術は、外部APIへの依存度を下げることで、開発者がより安定した、自己完結型のコーディング支援環境を構築することを可能にします。これにより、サービス障害による開発の停滞リスクを大幅に低減し、開発ワークフローの継続性を高める大きな影響が期待されます。ただし、プラグイン機能など一部の高度な機能は制限されます。

Information Sources:

https://qiita.com/ryun818/items/a2f7fa6d76d2d48b121a