PAIボイスシステム:AIに声を吹き込むTTS通知サーバー
PAIボイスシステムは、AIエージェントの応答をElevenLabs TTSで読み上げる音声フィードバック機能です。長時間タスクが終わっても画面を見なくても、音声で完了や重要な通知が知らせてくれます。
システムアーキテクチャは、Stop HookからProsody Enhancer、Voice Server、ElevenLabs API、Audioへと流れます。Stop Hookが応答完了を検出し、Prosody Enhancerが感情マーカーを追加し、自然な発話を実現します。Voice ServerはHTTPリクエストを受信し、ElevenLabs APIで音声生成を行い、ffplayで再生されます。
エージェントごとに異なる声を持つように設計されており、EngineerはMarcus、ArchitectはSerena、DesignerはAditi、PentesterはDomi、InternはYoung voiceです。Prosody Enhancementにより、間や抑揚を加え、より自然な発話に近づけます。セットアップはVoice Serverの起動と環境変数の設定、Hook SystemでのStop Hook有効化で行います。macOSではElevenLabs APIキーがない場合、sayコマンドでフォールバックします。
Menu Barアプリも付属しており、サーバーの起動/停止、音量調整、声の切り替え、通知履歴を確認できます。使用シーンとしては、長時間タスク完了通知、マルチエージェント作業での進捗状況把握、エラー通知などが挙げられます。
背景
PAI(Personal AI Assistant)は、ユーザーの指示に従ってタスクを実行するAIアシスタントです。このボイスシステムは、PAIに音声フィードバック機能を追加し、AIエージェントの応答を音声で通知することを目的としています。
重要用語解説
ElevenLabs TTS: ElevenLabs社のテキストtoスピーチ(TTS)技術。高品質な自然な音声合成が可能である。
[重要性]:本システムの中核となる技術であり、音声の質がシステム全体の評価に大きく影響する。
[具体例]: 本システムで利用されているAIエージェントの応答を音声化する際に使用される。
Prosody Enhancement: 発話の抑揚や間などを調整し、より自然な音声にする技術。
[重要性]:単なるテキスト読み上げではなく、感情表現を加えることで人間とのコミュニケーションを円滑にするために重要である。
[具体例]: "タスクが完了しました"という文を、Prosody Enhancementによって「タスクが... 完了しました!」のように発話することで自然な流れになる。
Stop Hook: システム内で特定のイベントが発生した際にトリガーされる機能。
[重要性]:本システムでは、AIエージェントの応答完了時にトリガーされ、音声通知を開始する役割を担う。
[具体例]: AIエージェントがタスクを完了すると、Stop Hookが検知し、Prosody Enhancerに信号を送ることで音声合成が行われる。
PAI: Personal AI Assistantの略称。ユーザーの指示に従ってタスクを実行するAIアシスタント。
[重要性]:本システムは、このPAIに音声フィードバック機能を追加することを目的としている。
[具体例]: リポジトリをリファクタリングするなどのタスクを自動的に実行し、完了時にユーザーに通知する。
今後の影響
本システムは、AIアシスタントとのインタラクションをより自然で人間らしいものにすることで、作業効率の向上やストレス軽減に貢献すると期待されます。また、音声による通知は視覚障害者などにとって利便性が高く、アクセシビリティ向上にもつながります。