テクノロジー 注目度 69

AmiVoice APIを活用し、日本語のフィラー(つなぎ言葉)を削除せずにカウントするCLIツールを開発

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

本記事は、音声認識API「AmiVoice」を利用して、話し手の発話に含まれるフィラーワード(例:「えーっと」「あのー」など)を定量的に分析できるコマンドラインインターフェース(CLI)ツールの開発経緯と技術的な詳細を解説している。

筆者は、自身の発表練習やスピーチの改善のため、「自分の話し方を客観的に知る」必要性を感じた。従来の音声認識APIはフィラーワードを自動で削除する機能が優れている一方、本ツールではその機能を逆手に取り、フィラーを「消さずに」検出することを目的とした。

使用された主要な技術は、Advanced Media社提供のAmiVoice APIである。特に重要なのが、Hybridエンジン(-a-general)におけるパラメータ `keepFillerToken=1` の利用である。この設定により、APIはフィラーワードをテキストから削除せず、「%えー%」のようなトークン形式で保持し、レスポンスとして返却することが可能となる。

CLIツールは、音声ファイル(.wav推奨)を入力とし、AmiVoice APIにリクエストを送信する。取得したJSONレスポンスの`tokens[]`配列から、正規表現(`^%[^%]+%$`)を用いてフィラーマーカーを抽出し、以下の詳細なメトリクスを算出・表示する。

* **総フィラー数**: 検出されたトークンの合計数。

* **1分あたり頻度**: 発話時間に基づいた定量的な指標。

* **種類別内訳**: 「えー」「あのー」など、具体的なフィラーの種類ごとの出現回数。

* **イベントタイムライン**: 各フィラーの開始時刻(Start)と終了時刻(End)、および信頼度(Confidence)。

検証の結果、このツールは台本読みや即興スピーチといった様々な状況で高い精度を発揮することが示された。ただし、単音節の混入や、AmiVoiceが定義するフィラーに限定されるなど、「人間が感じる全てのフィラー」を網羅するわけではないという限界点も明確に指摘されている。


背景

近年、AI技術の進化に伴い、音声認識や発話分析ツールへの関心が高まっている。特にプレゼンテーションスキル向上を目指す層にとって、「フィラー」は改善すべき重要な指標であるため、これを定量的に測定するツールの需要が高い。

重要用語解説

  • AmiVoice API: Advanced Mediaが提供する音声認識SaaS。日本語ドメイン特化エンジンを持ち、通常はフィラーワードを自動削除できる機能を持つ。
  • CLI (Command Line Interface): コマンドライン上で動作するソフトウェアインターフェース。テキストベースでプログラムを実行し、結果を出力する形式のツール。
  • keepFillerToken=1: AmiVoice APIのパラメータ設定の一つ。この値を1にすることで、フィラーワードを削除せず、特殊なトークン(%...%)として保持・返却させる機能。

今後の影響

本CLIツールの登場により、ユーザーは録音ファイルを単なる「聞き返し」ではなく、「データ分析」の対象として客観的に評価できるようになる。これにより、発表や面接などの場での話し方改善が、具体的な数値(頻度、種類別内訳)に基づいて計画的かつ効率的に行えるようになることが期待される。