日本ケーブルラボでは現在、NTTドコモの「しゃべってコンシェル」やAppleの「Siri」などに搭載され注目を集める音声認識について調査を進めており、基本技術、主要ベンダーの提供するソリューションおよび同技術をケーブルサービスへ展開する場合のポイントなどについて述べると共にユースケース例を紹介し、サービス導入のヒントとする狙いで作成中です。

音声認識技術の研究は1952年に米国のベル研究所で始まり、1980年代から開始された、音声の多様な変動を確率モデルとして表現する統計的パターン認識を用いた手法が現在の音声認識の主流となっています。これは、音声の個人差を含む様々な要因による音声スペクトルの変動を確率モデルで表し、入力された音声が、考えられうるあらゆる言語のいずれかであるかを確率計算し、最も確率が高い言語を選んで認識結果として出力するものです。

現在は、利用場面を限定することで高精度の音声認識が可能になっており、例えば、通常の文章の読み上げの場合、認識できる語彙数が大幅に増えたことにより実用的なシステムの構築が可能です。これは、ここ数年の通信インフラの整備に伴う回線の高度化とDB検索技術の高度化を背景として初めて実現したシステムと言え、音声認識機能をクラウド側に置くことにより大容量の辞書を活用できる高性能音声認識サービスです。

音声認識技術を活用したサービスを行う際に必要となるのは、ユーザーの発話内容をTEXT化処理する音声認識エンジン以外に、ユーザーの発話意図を抽出する会話エンジンと音声によるレスポンスを行う音声合成エンジンで、以上3種類のエンジンを組み合わせて構築するものが多く見られます。

音声認識エンジンの性能は、音響モデル(全ての音素の見本)、言語モデル(あらゆる文章の見本)、そして単語辞書を、ターゲットとなるサービスに合うDBとしていかに効率よく、効果的に作り上げられるかが鍵を握っています。しかし、これらのDBを一から作り上げるには様々な話者から様々な文章や会話を大量に収集する必要があり、大変な工数と費用が発生するため、通常は、すでに同一カテゴリーでのサービスを手掛けているベンダーが構築した共通の辞書を活用し、当該サービスにおいて必要となる辞書の差分を登録する方法を採用して作業の効率化を図っています。

ケーブルテレビへの音声認識を用いたサービスとして、ホームICT系サービスにおけるUI改善、HBX内蔵機能におけるUI改善、その他e-コマース、SNS、メールにおけるUI改善、コールセンター、コンシェルジュ、自治体情報提供サービスへの活用など、幅広い応用範囲が考えられます。報告書完成の際には会員の皆さまにご報告しますので、ぜひサービス化検討の際の一助としてご活用ください。