テクノロジー注目度 54

DeepLが音声翻訳分野に進出：テキストからボイスへの機能拡張とAPI提供

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

これまでテキスト翻訳ツールで知られてきたDeepLが、この日、音声から音声への翻訳スイートをリリースした。この新機能は、会議、モバイル・ウェブでの会話、さらにはカスタムアプリを通じた現場作業員向けのグループ会話など、多様な利用シーンをカバーする。DeepLのCEOであるJarek Kutylowski氏は、長年テキスト翻訳に携わってきた経験から、音声翻訳は「自然な次のステップ」であると説明した。彼は、リアルタイム音声翻訳の実現には、遅延（レイテンシー）の低減と翻訳精度の維持というバランスを取ることが最大の課題だと指摘した。

具体的な提供方法として、ZoomやMicrosoft Teamsといったプラットフォーム向けにアドオンをリリースし、参加者はネイティブ言語での会話中にリアルタイム翻訳を聞くか、画面上のテキストで追うことができる。このプログラムは現在、早期アクセス段階にあり、企業からのウェイティングリスト登録を受け付けている。また、対面またはリモートでのモバイル・ウェブベースの会話や、研修セッションなどのグループ会話にも対応する。

DeepLの技術は、業界固有の専門用語や企業・個人名といったカスタム語彙にも学習し、適応できる点が特徴である。Kutylowski氏は、AIが顧客サービスをどのように変革するかを展望し、翻訳レイヤーが、人材確保が困難で高価な言語でのサポート提供を可能にすると述べた。さらに、DeepLは自社がエンドツーエンドの音声翻訳スタック全体を管理していると強調し、将来的にはテキストステップを完全にスキップするモデルの開発を目指している。競合としては、アクセント修正に特化したSanasや、動画のローカライズに強みを持つCamb.AI、そして発話者の声質と意味の両方を保持するPalabraなどが存在し、市場での競争が激化している。

背景

DeepLは元々、高い精度でテキスト翻訳を提供するサービスとして知られていた。しかし、グローバル化が進む現代において、単なるテキスト翻訳では対応できない、リアルタイムでの音声コミュニケーションのニーズが高まっていた。この背景から、DeepLは自社のコア技術を応用し、音声翻訳という新たな市場領域に本格的に進出することとなった。

重要用語解説

リアルタイム翻訳: 話された音声に対して遅延を最小限に抑えながら、即座に翻訳された音声やテキストを出力する技術。会議や会話での即時性が求められる。
レイテンシー: 音声が発話されてから、翻訳された音声が再生されるまでの時間的な遅延のこと。リアルタイム翻訳の品質を左右する重要な要素。
エンドツーエンドの音声翻訳モデル: 音声入力から直接翻訳された音声出力まで、中間的なテキスト処理のステップを介さずに完結させる、次世代の音声翻訳システム。
影響: 本機能のリリースは、企業がグローバルな顧客対応や国際会議をよりシームレスに行えるようにする点で大きな影響を与える。特に、言語の壁によるビジネス機会の損失を減らし、中小企業や現場作業員など、多様な現場でのDX（デジタルトランスフォーメーション）を加速させる可能性を秘めている。今後の競合との技術競争が激化すると予想される。

Information Sources:

https://techcrunch.com/2026/04/16/deepl-known-for-text-translation-now-wants-to-translate-your-voice/