HMMより更に一歩先の音声合成技術

HOYAのVoiceTextは、ディープラーニングの技術を追加導入して、さらに表現力が凄いことになっているようです。

以前SinsyやHTSに導入されたDNN(deep neural network)と同種の技術なのか、私には見当がつきませんが、従来よりも更に自然な話し声を生成できるポテンシャルを感じ取ることができます(T-T)

HTS(http://hts.sp.nitech.ac.jp/)のページには、DNNによってフレーム単位のモデリングを行うと書かれているような気がします。（英語なうえに内容が難しすぎて私には良く分かりませんが…）

HMMを基本にしつつも、従来は１つの音素につき５つ？だった音声の情報（メルケプストラム）を、DNNの力でフレーム単位でモデリングすることにより、声のディテールを向上させる技術だと解釈してます。
（もっと詳しい人による正確で分かりやすい解説を希望…(汗)）

いずれCeVIOもDNN化されるかもしれない！？と考えると、非常にワクワクが止まらない感じです(^ ^;

そして今回もヒカリさんの新しいデモ曲がアップされてます！

ソングの方はディープラーニング化されているのか定かではありませんが、相変わらず惚れ惚れする素敵な歌声です(T-T)

ディープラーニング搭載のVoiceTextが「音声合成の声優事務所」に登場！
～感情表現や対話表現がより自然に～
http://voicetext.jp/news/product/180112/

ひとりCeVIO祭り