2012年10月3日の日経産業新聞に、東芝とTBSグループのBS-TBSが10月3日より小説などを有名人の声で朗読するスマホ向けアプリの配信を始め、東芝の音声合成技術を採用し、俳優などの音声データベースと小説の文字データを組み合わせて、端末で朗読を楽しむことができる旨の記事が掲載されています。
従来の音声合成の方式では、単語レベルの音素片を蓄積し、入力文章に対して繋ぎ合わて合成音を作ります。そのため、大規模な音声DBにこれらの大量の単語を蓄積しておく必要がありました。一方、今回採用している方式は、/あ/、/い/・・・/わ/、/を/、/ん/といった音素単位の辞書のみを持ち、前後の音素を含む音素ごとの確率モデルを繋ぎ合わせ、声帯やのど、舌、鼻の音響空間特性を反映させて合成音として出力させることにより小規模の辞書のみで比較的自然な合成出力が可能となる方式を採用しています。これにより、通常は、新たな話者による音声辞書の作成に数百時間の録音を要するものが、数時間の録音のみの小容量音声辞書で済むために新たな話者による朗読が可能となっているという点に注目です。
