「AIきりたん」がすごい - すずしめにっき

ゆうべ、そろそろ寝ようかなと思っていたらものすごいものが投下され、興奮して結局3時半まで起きてしまいました。

ということで、昨晩公開された「AIきりたん」こと歌声合成エンジンNEUTRINO¹について（今の興奮をあとで思い返すためにも）書いておきます。

AIきりたんとは

とりあえずこれを聴いてみてください。

これが合成音声か！？と思ってしまうような仕上がりですが、これがAIきりたん……歌声合成エンジンNEUTRINOによって生成されたきりたんの歌声です。

NEUTRINOはSHACHIさん(@SHACHI_KRTN)によって製作されたフリーウェアで、昨晩公開されました。その標準の同梱ライブラリの1つが東北きりたんのものなので、そちらのことが「AIきりたん」または「AIシンガーきりたん」と呼ばれているというわけです。

ニューラルネットワークを用いた歌声シンセサイザー【NEUTRINO】を公開しました。
Homepage: https://t.co/Ce5EAUoa8n
Blog: https://t.co/RLrkNL53LG
Download: https://t.co/I5tvWeAQoX pic.twitter.com/21LJ6B8C9m
— SHACHI_NEUTRINO (@SHACHI_NEUTRINO) 2020年2月21日

上に貼った動画はくろ州さんのもので、氏は1週間ほど前、一足先にNEUTRINOの提供を受けていたらしいです~~（ソフトウェアの公開と同時に曲を公開してもらうの、プロモーションがうまいですね）~~ （2/22 23:20 訂正：「私がやったのはテスターであって、バグ報告すればいいだけだったので、カバー投稿は「私が我慢できなかっただけ」です。記事公開も勝手にやってます。」²とのことです。プロモーションを依頼していたわけではなかったようです。お詫びして訂正します）。ということでけっこう頑張って調整されているようなのですが、一般公開されてから試しに使ってみた方々の曲も（まだ1日経ってないのですが）既にたくさんニコニコ動画に上がっています。

www.nicovideo.jp

けっこう曲を選ぶ節があるようなのですが、無調声ですらかなり人間らしい声を出していてすごいの一言です。

また、製作者（SHACHIさん）自身によるサンプルもありますが、これは既にニコニコ大百科のほうにまとめられているので、そちらを参照すると良いと思います。

dic.nicovideo.jp

実際に触ってみたい方は、

・くろ州さんの記事

km4osm.com

や、

・アマノケイさんの記事

amanokei.hatenablog.com

を参照するとわかりやすいと思います。

私もアマノケイさんの記事を参考に、（私は楽譜打ち込みをしたことがなく、手っ取り早く試してみたかったので）「us配布」タグで公開されている動画から借りたustファイルを使って試してみたのですが、楽譜を食わせただけで何回も聴いていたくなる歌が生成されてびっくりです。たまに音を外したりするのですが、そういうところも人間らしくてよいのですよね…。

今はまだ使う側の知見が溜まっていませんが、しばらく経つと更にすごいものが出てくるのではないかと期待がいっぱいです。

ということで「歌声合成の一つの到達点か！？」くらいのことを思っているのですが、前述の「キリトリセン」の動画でくろ州さんが

AIきりたん

いろんな技術屋、法律屋、声優、学者、キャラクター運営などの作った伏線の上にある

と書かれているように、AIきりたんはいろんな人達が築き上げた基礎の上にあります。その「伏線」を私の知る限りでまとめてみようかなと思います。

キャラクター運営の面：東北きりたんとは？

そもそも「『東北きりたん』って誰？」という方のために説明しておくと、東北きりたんは「東北ずん子」の妹です。

f:id:suzusime:20200222160554p:plain — 東北きりたん

東北ずん子はSSS合同会社によって生み出された企画で、震災後の東北応援の文脈をもっています。「いたこ」が元ネタの長女東北イタコ、「ずんだ餅」由来の次女東北ずん子³、「きりたんぽ」由来の三女東北きりたん、の東北三姉妹を軸に様々なキャラクターが登場しますが、特徴的なのは至る所に現れるぶっとんだ設定と展開。冗談交じりに「制作者はずんだキメてる」とかいわれてたりします。私も軽い気持ちで見たアニメ『ずんだホライずん』でずん子ワールドを知り、公式4コマを読み、気づいたらきりたんのVOICEROID⁴を買っていました。ずん子についてはアニオタWikiの東北ずん子の項が詳しいので、キャラクター設定についてもう少し知りたい方はそちらをどうぞ。

さて、これだけだと普通のキャラクタービジネスかもしれませんが、特筆すべきはずん子運営が新しいものにとても貪欲なこと、および素材を惜しみなく提供していく姿勢です。

上でさらっとアニメやVOICEROIDの存在について触れましたが、これらは基本的にクラウドファンディングで集めた資金で作られています。去年は3Dアニメ用を作るということでクラウドファンディングをしていましたが、VR対応までするとのことです。そして、そのアニメのために作った3DモデルをPowerPointで使える形式にして配布するなんてことをしています。あと、FacerigのモデルやVRMモデルを作ってみたり、仮想通貨（私は勝手に「ずんだコイン」と呼んでました）を作ったりなんてこともしていました。

ずん子公式サイトにはイラスト、3Dモデル（MMD、Blender）、2Dモデル（E-Mote、Live2D、FaceRig）が置かれていて、VOCALOIDやVOICEROID、UTAUのデータもあるので、ニコニコ系創作スターターキットが揃っています（もちろん公式以外の素材もたくさんありますが）。

基本的に東北企業以外の商用利用には利用料が必要なのですが、「技術紹介目的なら例外的に無償でOK」と定められているなど、「新しい技術に真っ先に乗っかってそれでずん子を広めよう」という姿勢を強く感じます。個人的に思うのは、特にVOICEROID化はうまくいったんだろうなということ。すっかり東北三姉妹は「VOICEROIDファミリー」みたいなものの一員として扱われていて、ゲーム実況やVOICEROID解説動画に（本来の物語に縛られることなく）出てくるので知名度アップに大きく貢献していそうです。必要な時代にツルハシを売ることができたというか。最近は海外進出のために英語版VOICEROIDを作っているのだとか…。

そして、そういう流れの中で新たに提供された音声合成の研究者向けのデータベースが、今回のAIきりたんのもとになっている「東北きりたん歌唱データベース」です。

法律の面：日本の改正著作権法

日本の法律というと、新しい技術の壁になってしまってなかなか新しい技術が育たない……というイメージがありますが、機械学習に関しては違います。「日本は機械学習パラダイス」なんていわれるくらいに研究がやりやすい環境があるのです。

storialaw.jp

「東北きりたん歌唱データベース」は既存の曲（つまり第三者が権利を持っている曲）を東北きりたん（というか中の人である茜屋日海夏さん）が歌った音声のデータに、機械学習しやすいように様々な補助データ（歌詞や音程など）をつけたデータベースです。

これは、上記サイトでいうところの「１　自らモデル生成を行うのではなく、モデル生成を行う他人のために学習用データセットを作成して不特定多数の第三者に販売したりWEB上で公開する行為」に相当します。つまり、2019年1月1日に施行された改正著作権法で初めて可能になったわけです。

今までこういった歌唱データベースには著作権切れの童謡を使ったものなどばかりだったようで、今風のポップソングに適したデータベースは（たぶん）画期的でした。

今回はより挑戦的なデータベースを作るため，楽曲は童謡ではなく，i☆Ris名義でリリースしたCDに含まれる楽曲のうち，1番を中心にした合計50曲分です．ジャンル的にはアニソンやポップスの合成に適したデータベースになると思います．
— M. Morise (忍者系研究者) (@m_morise) 2019年7月19日

声優の面

とはいえ、合法化する法律ができただけではデータベースは作れません。当然ながら声優さん側の理解が必要なわけです。次の記事は茜屋日海夏さんも所属する声優事務所81プロデュースの社長南沢道義氏へのインタビューです。

xtech.nikkei.com

「合成音声技術で声優の仕事がなくなってしまうのではないか？」という心配への声優事務所の立場から回答が示されています。このような考えから、声優事務所として協力をしてくれているのです。

技術の面：DNN

さて、これでデータベースという材料が揃ったので、あとはこれをどう料理して歌声合成エンジンを作るかです。

が、正直ここに関しては私は門外漢すぎて全然分かりません（IT技術っぽいことやってるのに……）。

詳細は割愛させていただきますが、Acoustic NNはAR付きのFFNNをResidualで繋いだ構成で、過去200 frameの対数基本周波数・メルケプ（0次）、過去20 frameのメルケプ（1~60次）・非周期性指標・有声/無声をARしています。
— SHACHI_NEUTRINO (@SHACHI_NEUTRINO) 2019年12月6日

製作者さんがこんな風に軽く解説されていますが、私は「よく見るDNN歌声合成」すら知らないのでなんとも。 DNN(Deep Neural Network)はNeural Networkの層を深くしたものであっていわゆるディープラーニングってやつだとは思うのですが。

付属のドキュメントによれば、NEUTRINOは（入力されたmusicxmlファイルから生成したlabelをもとに）「発声タイミングと音の高さ・声質・声のかすれ具合を推定」し、それをWORLDというソフトウェアに渡すことで音声にしているようです。このWORLDの開発者が、きりたん歌唱データベースの実現にも尽力された明治大の森勢将雅(@m_morise)さんです。

github.com

AIきりたん動画に「CeVIOっぽい」という反応がけっこうあるのですが、WORLDのサイトによれば「UTAUの合成エンジン，また音声創作ソフトウェアCeVIOの音声分析の一部にもWORLDが使われています」とのことなので、さもありなんということか。

とはいってもじゃあUTAUっぽいか？というとよく分からないので、やはりそれ以前のパラメータ決定部分でやっていることがNEUTRINOとCeVIOで似ているのかもしれません（CeVIOはHMM（隠れマルコフモデル）を使っているらしい）。やっぱり詳しい人の解説待ちです。

まとめ

ということで、データベース公開を合法化する法律、音声合成技術の研究、新しい技術を取り込もうとするキャラクター運営、声を合成音声のために提供することを許す声優と事務所、そしてこれを一般人にも使える形にまとめあげた技術者、その結晶が「AIきりたん」です。

一聴してびっくりするものの、いくつかの欠点も既に指摘されています。

ひとつ顕著なのは「曲を選ぶ」ということで、これは学習データにないジャンルの曲は難しい（だろう）機械学習由来の合成エンジンの面白い特徴かと思います（「きりたんが曲を選んでるようでかわいい」なんて感想をツイッターでみました。いいですね）⁵。

あと、「きりたんっぽくない」「むしろらぁらちゃん⁶っぽい」といった感想も結構みました。これに関しては人々のきりたん像次第なんだろうなぁと思うところです。VOICEROIDのきりたんはパラメータ次第で声の高さや速さを変えられるのですが、低めに調整されていることが多い印象で、それと比べると違和感があるのかなという感じ。UTAU版やexVOICE⁷では必ずしもそうではないので「きりたんの声」でイメージされるものには幅がありそうです。そもそも東北ずん子の企画自体、媒体によって設定が違ったりするのであんまり深く考えなくてもいいんじゃないかなと思うところです。わたし的にはこれもきりたんとして全然アリです。「がんばってカラオケで歌ってそう」という妄想もいいですね。

「今のAIきりたんに納得いかなければぜひ自分で作ってみればいい」というのもあり（きりたん歌唱データベースが一般公開されているのは音声合成の研究を活発にするのが目的です）、これからもいろいろな変種なり新提案がでてきたりしそうで楽しみです。

AIきりたんの歌を聴いて本当に私はわくわくしました。

「機械学習で商品の推薦システムを」みたいな話はよく聞くのですが⁸、そういうのとは段違いの面白さを感じます。こういった夢のある楽しい技術が私は大好きです。

機械学習もちょっとくらい勉強しておけばよかったかな、なんて今若干思っています⁹。

以上、きりたんのオタクによる、AIきりたんの感想でした。

（事実誤認等あれば指摘していただけると幸いです）

＜2/23 18:30追記＞

・アマノケイさんのブログに森勢さんへのインタビュー記事が出ました。当事者によるきちんとした情報が書かれているので、ぜひこちらも参照ください。

amanokei.hatenablog.com

後述のようにこう書くのはいささか不正確です。↩
https://twitter.com/kM4osM_96s/status/1231216982252380160 ↩
実は本名は「じゅん子」らしい。ちなみにきりたんのほうは本名。↩
音声合成ソフトウェア↩
これは原理的な困難ではなくて、学習データのジャンルを増やせれば解決しそうに（素人目からは）思えますが。↩
『プリパラ』主人公の真中らぁらさん。小学生でアイドル。声優がきりたんと同じ茜屋日海夏さん。↩
VOICEROIDについてくる音声集。↩
最近就活を始めたので……。↩
別に今からできないなんてことはないのですればよいだけ。↩