VOCALOID:AI - ひとりCeVIO祭り

最近巷では「AI美空ひばり」なるものが話題のようですが、テレビを持ってない私はその歌声を全くチェックしてません…

個人的にはN〇Kが絡んでる時点で触れづらいんですが（そんなことを言うと最近話題の某政党の支持者と誤解されそうですが違います）、VOCALOID:AI自体は業界に衝撃を与える非常に画期的な取り組みだと感じたので、VOCALOID:AIのエンジン部分の話に絞って何か書いてみたいと思います(^ ^;

VOCALOID:AIは波形接続型のエンジンではなく、DNNで歌声を生成するタイプのエンジンで、「ピッチ」「タイミング」など歌声の特徴を作るモデルと、それらを組み合わせてコントロールするモデル、最終的に波形にするモデルなど、様々なモデルを段階的に使う事で、楽譜から最終的な歌声を生成するようです。

しかもGPU未搭載の普通のノートPCで実時間再生できるほどに軽量らしいです。
そして歌声合成だけでなく、TTS（喋る方）も一緒に作った所が流石ですね。

一方で私たちが普段使っているCeVIOはDNNではなくHMMですが、共に機械学習系の歌声合成エンジンという事で、VOCALOID:AIもCeVIOと似たような特徴や制約を持っているようです。

学習データにばらつきがあると音がなまってしまうという問題を、今回のケースでは、楽譜情報以外に収録環境や曲のジャンルのラベルを用意することで対処したそうで、とても興味深いです。