HOYAのVoiceTextは、ディープラーニングの技術を追加導入して、さらに表現力が凄いことになっているようです。
以前SinsyやHTSに導入されたDNN(deep neural network)と同種の技術なのか、私には見当がつきませんが、従来よりも更に自然な話し声を生成できるポテンシャルを感じ取ることができます(T-T)
HTS(http://hts.sp.nitech.ac.jp/)のページには、DNNによってフレーム単位のモデリングを行うと書かれているような気がします。(英語なうえに内容が難しすぎて私には良く分かりませんが…)
HMMを基本にしつつも、従来は1つの音素につき5つ?だった音声の情報(メルケプストラム)を、DNNの力でフレーム単位でモデリングすることにより、声のディテールを向上させる技術だと解釈してます。
(もっと詳しい人による正確で分かりやすい解説を希望…(汗))
いずれCeVIOもDNN化されるかもしれない!?と考えると、非常にワクワクが止まらない感じです(^ ^;
そして今回もヒカリさんの新しいデモ曲がアップされてます!
続きを読む