NTTドコモの「しゃべってコンシェル」、iPhoneの「Siri」に見られるように、音声認識が新たなサービスとしてモバイル端末ユーザの間で定着しつつあります。音声による入力と音声での応答は、ユーザにとって新しいユーザインターフェース(UI)を提供するものであり、今後あらゆるサービスのフロント・エンド技術として発展するものと思われます。日本ケーブルラボでは、ケーブルサービスの新たなUIとして音声認識に着目し、検討を進めています。

音声認識技術は、基本的に認識、学習、対話処理の三つの処理領域から成り立っています。認識処理では入力された音声信号の前処理を行ない、特徴データを抽出します。このデータを予め準備された言語モデル、音響モデル、単語辞書と照合して、最も確からしい単語を選び出します。言語モデル、音響モデル、単語辞書はそのデータベースが学習領域に格納されており、認識処理をバックで支えています。認識処理の結果はテキストなので対話処理部で音声合成により音声化され、出力されます。

音声認識システムは規模と認識対象の範囲(サービス範囲)でスタンドアロン型とサーバ型に大別されます。スタンドアロン型音声認識システムは、上記の音声認識機能が一つの端末に全て組み込まれた形態です。カーナビ、DVR、テレビ、エアコンや掃除機への搭載も行われています。スタンドアロン型では、機器に組み込まれるCPU性能によりレスポンス時間が決まり、搭載するメモリ容量により対応する認識範囲が決まります。基本的には「単語認識」ですので、リモコン操作を音声入力で代用する等の比較的限定的なアプリケーションに適用できます。

サーバ型では端末(クライアント)側で、音声の前処理を行った後は、サーバ側に設置された音声認識サーバで以降の全処理を行います。サーバ側の大きな処理能力により、大規模な言語モデル、音響モデルを活用して大語彙音声認識システムが構築できます。スタンドアロン型では出来ない「発話意図の解釈」も将来的には、可能となります。ただ、ユーザが発話してから、認識結果を返すまでの応答時間は、サーバ内の処理時間とクライアント・サーバ間の通信時間に支配されるため、一般的にスタンドアロン型より長くなります。サーバ型は、例えば番組名、ジャンル、出演者、放送日、キーワード等の複数の発話を入力として、その条件に合致する番組を提供するサービスに適用できます。