2010年09月11日

音声合成を、「自然な音声の再現」の点で比較【改訂】


ニュース・リリースによると、日立が音声合成システム「ボイスソムリエ ネオ」で、自然な音声を再現できたとの事。

音声合成については、以前に(?年前・・・)テキストの読上げソフトを使っていた事があります。本などの文字ページをスキャナーで取込み、活字OCR(光学文字認識、Optical Character Recognition)ソフトで(漢字かな混じり分の)テキストファイル化した後、その変換結果の内容を確認する為に読上げソフトを使っていました。読上げ内容が理解できなければ、その個所がOCR変換の正しくない部分だという訳です。

その時点でも活字OCRは95~98%などといった変換率であったと思いますが、それでも間違いがあると個人利用といえども再読する時に困ると思っていました。OCR変換したテキストファイルは当初目視チェックしていましたが、読上げソフトを入手してからは楽になって利用価値がありました。その後紙文書をイメージのまま電子媒体化しても、便利なビューアーができたり蓄積媒体も安価になっり、情報自体も直接電子媒体の状態で作成・提供されるようになり、活字OCRソフトや読上げソフトも使わなくなっていました。

所が最近は別の用途で多様に使われているようです。ロボットの発生も音声合成でしょうし、各種案内放送にも使われているようです。音声翻訳にも使われていますネ。「ボイスソムリエ ネオ」ではPowerPointのノート部分に書いたテキストも読上げられるので、ウェブに掲載するプレゼンテーションやe-Learningなどでも使えるようです。

以前のようにデータ入力チェックなどの使われ方では、兎に角(漢字が入っていても)文字通りに(正しい読みで)読上げる正確性がポイントでしたが、最近は人が聴いても違和感を感じないような発声が求められる実用化のレベルになったようです。



こんな位置付けで日立の「ボイスソムリエ ネオ」をウェブで体験してみましょう。体験できるサイトはこちら(但し、Windows上のIE 6以上)。女性か男性かを選択し、ウェブページのテキスト(200文字以内)をコピペして「再生」してください。
体験版のダウンロードはこちら(私は未実施)



なかなか良いようです・・・・


少し意地悪な下の2つの文章(1段下げたフィールド)もコピペして再生してください。少し限界が見えてきます。

Wikipedia:「音声合成」の項より借用
音声合成技術の概要
人工的に人の声を合成するシステムであり、テキスト(文章)を音声に変換できる事から、しばしば『テキスト読み上げ(text-to-speech、略してTTS)』システムとも呼ばれる。

吾輩ハ猫デアル【夏目漱石】:青空文庫より借用
吾輩は猫である。名前はまだ無い。
どこで生まれたか頓と見當がつかぬ。何ても暗薄いじめじめした所でニャー/\泣いて居た事丈は記憶して居る。


他にも体験できるウェブサイトがこちらこちらこちら(最新製品と比較する事になり御免なさい・・・・・適宜最新版にしているようです)。

AITalk  (300文字以内) AITalkについてこちらに新規投稿




FutureVoice EX  (100文字以内)




VoiceText  (200文字以内)





まだまだあるでしょうが、最後に東芝の音声合成サイト「Studio ToSpeak」。当初は期間限定でしたが、(延長したようで・・・)未だ使えます。こちらのサイトではユーザ登録(無料)する事で、合成した音声ファイルをダウンロードできます(音声ファイルの利用制限あり。何回かの利用後に、アンケート回答で継続)。





今後どのような展開になるか楽しみな分野です。


【改訂】2011年05月12日 23:10 体験サイトのリンク確認


 
ラベル:音声合成
posted by 鎌倉太郎 at 12:52| 神奈川 ☀| Comment(0) | TrackBack(0) | 体験利用 | 更新情報をチェックする
この記事へのコメント
コメントを書く
コチラをクリックしてください

この記事へのトラックバック