昨今の合成音声の発展は目覚ましいものがあり、様々な音声合成ソフトが誕生しています。
「VOCALOID」や「VOICEROID」、「UTAU」等が特に有名ですね。
これら音声合成ソフトは、歌を歌わせたり、喋らせたりするのが主な用途です。
今回は「喋らせる(トークをさせる)」というところに着目し、私なりに感じた各音声合成ソフトの特長やメリット、デメリットをまとめました。
という方も、この記事を参考にして頂ければご自身にあった音声合成ソフトを見つけられるかと思います。
歌唱用音声合成ソフト
今回比較する音声合成ソフトは、大きく分けて歌唱用のものとトーク用のものの2種類があります。
まずは種類の豊富な歌唱用音声合成ソフトから見ていきましょう。
総じて、歌唱用音声合成ソフトには次のような特徴があります。
- 調声用のパラメータが多く、調声の自由度が高い。
- 歌唱用であるため、トークをさせるにはある程度の調声スキルが必要。
VOCALOID
音楽業界のトップ企業であるYAMAHAが開発した超有名な音声合成ソフトです。かの有名な「初音ミク」がこのソフトの音源ライブラリとして販売されています。むしろVOCALOIDという名前よりもこちらの名前の方が一般の人には伝わりやすいかもしれませんね。
いくつかバージョンがあり、現在最新のバージョンは「VOCALOID5」です。
新しい機能がいろいろ追加されているのですが、前のバージョンであるVOCALOID4ではあったクロスシンセシスやJob Ploginといった機能が無くなっています。また、VOCALOID5専用の音源ライブラリがまだ少なく、VOCALOID4でも十分事足りるといった理由でVOCALOID4を使い続けている人もいます。かく言う私もVOCALOID4使用者です。
VOCALOIDを使うメリットは、比較的ネットでの情報が多いことです。
VOCALOID自体が有名なソフトなのでユーザーも多く、使い方や用語の解説をしているサイトがかなりあります。初めて使う場合でも安心ですね。
また、VOCALOIDでトークをさせることを「トークロイド」というのですが、インターネットで検索すると結構な数の動画がヒットします。これらをお手本にしながらトークロイドの練習をすることも可能です。
そして歌唱用音声合成ソフトの中でも調声できるパラメータの数が多い方ですので、高度なトークを調声することが可能です。
使い始めの時期ではパラメータが多すぎて混乱するかもしれませんが、上記のようなサイトや動画で勉強していけば理解を深めていけるでしょう。
逆にデメリットとしては、かなり高価であることが挙げられます。
最新のバージョンであるVOCALOID5が、VOCALOID SHOPでSTANDARD版(エディター+4種の音源ライブラリ付き)27,500円、PREMIUM版(エディター+8種の音源ライブラリ付き)44,000円となっています。
これに追加でお気に入りの音源ライブラリを購入するとさらに費用がかかってしまいます。因みに音源ライブラリ1つで大体1万円前後。合計するとかなりの高価格になりますね。
ここで注意すべき点は、音源ライブラリだけではVOCALOIDは使用できないというところです。
例外はありますが、基本的に歌唱用の音声合成ソフトは音声のデータである音源ライブラリと、それを操作するエディターの2つがないと使用できません。なのでエディターと音源ライブラリの両方を入手する必要があります。
それなら少しでも安くするためにVOCALOID5のエディターのみバージョンが欲しいところですが、どうやらエディターのみバージョンは販売していないようです。そして音源ライブラリがついていなかったVOCALOID4は現在入手が難しい状態。初めて合成音声のトークとして手を出すにはなかなか厳しい状況になっています。
ただ、もしVOCALOID5の機能や音源ライブラリにこだわりがないのであれば、初音ミクをはじめとするクリプトン社製のVOCALOIDを購入するという手段があります。
クリプトン社製のVOCALOIDには「Piapro Studio」というクリプトン社独自のエディターソフトが付属していますので、音源ライブラリを購入するだけでVOCALOIDを使用することができます。価格も税込み17,600円(クリプトン社サイト表示価格)と、VOCALOID5よりも安価になっています。
Piapro Studioはクリプトン社製以外のVOCALOID2~4用音源ライブラリにも対応していますので、新しいVOCALOID音源を追加で購入する場合も安心です。
クリプトン社製のVOCALOIDは人気なキャラクターが多いので、それらを使用した作品は他の人に見てもらいやすいという嬉しいメリットもあります。
総評すると有名で魅力的なキャラクターが多い反面、高価で歌唱用ソフトであるため、トークで使用するなら中級者向けといった感じです。
もし、
という方は、のちに紹介するSynthesizer Vの無料版やDeepVocalというフリーソフトのユーザーインターフェースが似ているので、それらをダウンロードして練習してから購入を考えるとよいでしょう。
初音ミクNT
VOCALOID繋がりでこちらのソフトについても簡単に紹介しておきます。
今までは初音ミクといえばVOCALOID用の音源ライブラリを指していましたが、最近新しい音声合成ソフトとして別の初音ミクが公開されました。
それが「初音ミクNT(ニュータイプ)」です。
これは今まであったVOCALOID技術ではなく、クリプトン社が独自の技術で開発した歌唱用音声合成ソフトになっています。
2020年11月27日に発売されましたが、現在、当初搭載が予定されていた3種類の音源ライブラリのうち、1種類のみを搭載した形での公開となっています。残りの2種類については今後のアップデートにより搭載される予定とのことです。
※追記
2021年6月24日のアップデートで追加のライブラリ「Dark」と「Whisper」が追加されました!こちらの記事でトーク音声が聴けますので良ければご参照ください。
発売前の段階では予約者に対してプロトタイプ版が公開されていました。私も予約してプロトタイプ版を使用してみたところ、大まかな操作性などは今までのVOCALOID及びPiapro Studioとほぼ同じでした。トークロイドと同じような感覚で、こちらでもトークを作成することができるでしょう。
ただ、VOCALOID版の初音ミクとは少々音声に違いが感じられます。
この部分については人によって好みが分かれます。気になる方は公式サイトや動画サイト等で公開されている音声を実際に聴いて確認してみて下さい。
UTAU
VOCALOIDとともに歌唱用音声合成ソフトの中では歴史のある有名なソフトです。一応シェアウェアですが、ほとんどの機能をフリーソフトの状態で使用することができます。
ソフト内の仕組み等は異なるのですが、かつては「無料版のVOCALOID」とも呼ばれており、VOCALOIDとともにニコニコ動画を賑やかしていました。
キャラクターで言うと、UTAU音源の先駆けであり、このブログでも音声サンプルで散々お世話になっている「重音テト」や、人間のようなリアリティを持ったキレ音源が一世を風靡した「波音リツ」等が有名です。
別の記事でも説明していますが、VOCALOIDでやるトークをトークロイドというように、UTAUでやるトークを「HANASU」といいます。
HANASUもトークロイドと同様にかなり昔からある分野なのでやり方を解説しているサイトや動画がいろいろあり、調声可能なパラメータも多く調声の幅が広いという、VOCALOIDと近いメリットがあります。にもかかわらずVOCALOIDと違って無料で使えるすごいソフトです。
このブログでも私がやっているHANASUのやり方を解説している記事があります。HANASUをやる場合は是非参考にしてください。
そして、UTAU最大のメリットはその音源ライブラリ数の多さです。
UTAUは個人が自分の声で音源ライブラリを作ることが可能であり、昔からあるソフトであることも手伝ってインターネット上に数多のUTAU音源が配布されています。
ですので、この中から自分の気に入った音源を探し出し、その音源でトークを楽しむことができます。
さらに、UTAUは歌唱用の音声合成ソフトであるため基本的にどの音源も歌唱用として使われています。当然、その中にはHANASUでは使われたことのない音源もあります。
つまり、その音源をHANASUで使うことで、他の合成音声トーク作品にない独自性を出し、差別化を図ることもできるのです。これらは音源数が多いからこそ発生するメリットですね。
また、公開されている音源の中には怒ったような声や囁き声といったような表情音源が収録されているものがあります。これらを使うことによって比較的簡単に感情のこもったトークを作ることが可能です。
デメリットとしては、エディターの動作、挙動の仕様が独特であることが挙げられます。
上で紹介したVOCALOIDやPiapro Studio、次に紹介していくSynthesizer VやDeepVocalはどれもエディターのユーザーインターフェースや動作が似ており、どれか1つ使えるようになったら他のソフトもある程度使えるようになります。
しかし、UTAUは他の歌唱用音声合成ソフトとはエディターの動作が異なっており、他のソフトで慣れていると扱うのが難しくなってしまいます。
例えば、VOCALOIDなどは音声を再生する際に再生開始位置を指定し、再生ボタンをクリックするとその再生位置から後ろの音声を再生する、という動作をします。
例としてVOCALOID4のエディター画面を画像で載せておきます。
一方UTAUの場合は再生開始位置というものがなく、再生範囲を選択してから再生するという動作をします。
UTAUのエディター画像がこちらです。
他にも、ノートを入力した際の挙動も異なっています。
VOCALOIDなどはピアノロール上に鉛筆ツールでノートを配置する際、マウスでドラッグした位置にノートが配置されます。これにより、下の画像のように各ノート間に隙間が発生します。
これに対してUTAUの鉛筆ツールでは、ノートが必ず左詰めに配置されるため、隙間が発生しません。
そのため、UTAUでノート間に隙間(無音)を作る場合には画像の右上にある「R」と書かれたボタンをクリックして休符のノートを挿入する必要があります。
以上の違いはどちらのほうが優れている、どちらのほうが良いという判断はできませんが、どちらかに慣れてしまうともう一方がどうしても使い辛く感じてしまいます。
何を隠そう、筆者である私自身がUTAUから使い始めた人間だったため、UTAUの動作に慣れてしまいVOCALOIDなど他の歌唱用音声合成ソフトが使い辛かった、という経験があります。
まとめると、VOCALOIDなどを使ってきた人にとっては独特な動作のために慣れるのが大変、UTAUを使ってきた人にとっては他の音声合成ソフトの動作に慣れるのが大変になる、というのがデメリットの1つです。
そしてもう1つのデメリットが、長期にわたってソフトの開発が止まっていることです。
2020年現在、UTAUの最新バージョンはv0.4.18eであり、このバージョンが公開されたのが2013年9月5日になっています。つまり約7年間アップデートが来ていないことになります。
ですので今後の機能の追加や、OSが新しくなった場合の対応等が不透明な状態です。UTAUの大ファンである自分にとっては少々不安に感じるデメリットでもあります。
総じて使用できる音源ライブラリ数も多く、機能も有料ソフトに負けないくらい高性能だが、操作面については癖のあるソフトといったところでしょうか。
操作面のせいでどちらかといえば中級者向きといった印象ですが、無料で使えるので、実際に使用してみて操作性が自分に合っているかどうか確認することが可能です。ですので試しに1度使ってみることをおすすめします。
Synthesizer V
VOCALOIDやUTAUと違って比較的最近公開された新しい音声合成ソフトです。DREAMTONICS社が開発しており、VOCALOIDやVOICEROIDで有名なAHS社が販売しています。
VOCALOID同様こちらもいくつかバージョンがあり、R1と呼ばれる最初に公開された第1世代と、web版、Studio Basic版、Studio Pro版の3種類が公開されている第2世代があります。第1世代とweb版、Studio Basic版については無料で使用できます。Studio Pro版は有料(AHS社にてエディターのみ税込み12,800円)ですが、無料版と違って機能制限がありません。
音源ライブラリでは第1世代の頃からあり、現在第2世代用の開発が進められている「エレノア・フォルテ」、もともとUTAU用で公開されていた「闇音レンリ」、そしてVOICEROIDとしても人気のある「琴葉茜・葵」(VOICEROID版とは異なり、茜・葵で1種類の音源ライブラリとして発売されています)などがあります。
特にエレノア・フォルテは英語音源で日本語には対応していないのですが、日本語に近い音声を並べることによって日本語をしゃべらせることも可能です。英語の発音のような訛りはありますが、とても綺麗に発声してくれます。第2世代用は機能等が制限されたライト版しかまだ公開されていないので、フルスペック版の発売が待ち遠しいですね。
そして、Synthesizer Vでトークをやるメリットとして無声音の調声が簡単にできるというところがあります。
Synthesizer Vには調声用のパラメータに「有声/無声音」というものがあります。しかもこのパラメータはDAWソフトによくあるオートメーション機能のように操作することが可能なので、自分の無声化したい部分に自分の好きなだけ無声音成分を調声できるのです。
例として有声/無声音のパラメータを調声している画像を張っておきます。
もちろん他の歌唱用音声合成ソフトでも無声音の調声は可能なのですが、Synthesizer Vのように専用のパラメータがあるわけではありませんので、他のパラメータを使用して無声音を作り出す必要があります。VOCALOIDには発音記号の「_0」を使うことで音声を無声化することができますが、こちらは0か100かしか選択できないので、Synthesizer Vのように無声音具合を自由に調声することができません。
無声音は合成音声でトークを作るうえで頻繁に使用する音なので、この無声音を自由に、しかも簡単に調声出来るというメリットの大きさは計り知れません。
続いてデメリットなのが、音源ライブラリ数の少なさです。
まだ発売されて間もないソフトなので仕方がないのですが、今のところ発売予定の音源ライブラリも含めて約10種類程度しかありませんので、他の音声合成ソフトに比べて選択肢が少なくなってしまいます。しかも、無料版で使用できる音源ライブラリはさらに限られます。この点に関しては、今後様々な音源ライブラリが出ることに期待するしかありませんね。
そして新しいソフトだけに、情報がまだ少ないという欠点もあります。
特にトークとしての使用者はまだまだ少ないので、トークに関する調声方法を調べることがかなり難しい状況です。
幸いソフトの挙動がVOCALOIDに似ていますので、分からないことがあった場合はトークロイドのやり方を参考にするとよいでしょう。
以上のように、独自のパラメータがトークをする上で光る、新進気鋭のソフトウェアがSynthesizer Vです。Studio Pro版以外は無料で使用でき、そこまで調声しなくても比較的綺麗に発音してくれるので合成音声トーク初心者でも扱いやすいでしょう。気になる音源ライブラリがある方は是非使ってみて下さい。
DeepVocal
こちらもSynthesizer Vと同じく最近公開された音声合成ソフトです。フリーソフトなので誰でも使用することができ、さらにUTAUのように個人で音源ライブラリを作成することができます。
ですので、流石にUTAUほどではありませんが、DeepVocal用音源もどんどん数が増えています。例をあげると、本格的なレコーディングを通して作成された「空詩音レミ」や、UTAU音源としても公開されている「獣音ロウ」などがあります。他にも、先ほどUTAUの項でも名前が出た波音リツもDeepVocal用音源が公開されています。
このソフトは今まで紹介してきたソフトの特徴を合わせ持っているというメリットがあります。
先ほども書いたように、UTAUと同様無料で使用でき、様々な音源ライブラリでトークの作成を楽しむことができます。
尚且つユーザーインターフェースがVOCALOIDやSynthesizer Vに似ているので、DeepVocalの操作に慣れることでその2つのソフトもある程度操作できるようになります。
一方デメリットの方では、Synthesizer V同様新しいソフトなので情報が少ないという点があります。こちらもトークに関する情報が少ないのでトークロイドの解説などを頼りにするとよいでしょう。
また、上記のソフトと比較して調声用のパラメータが少なめになっています。
声の女性っぽさ、男性っぽさを調声するジェンダーや、音素の長さ等を調節するタイミングといった基本的なパラメータは用意されているのでトークの作成に支障をきたすほどではないのですが、多くのパラメータを使用してこだわった調声をしたいというユーザーにとっては少々物足りないかも知れません。
ただ、調声できるパラメータが少ないということは裏を返せば調声や操作がシンプルになるということにつながりますので、トーク初心者の方には無料であることも手伝って使いやすいソフトでしょう。
トーク用音声合成ソフト
続いてトーク用音声合成ソフトについて見ていきましょう。
トーク用音声合成ソフトには総じて次のような特徴があります。
- トークの作成に特化しており、非常に簡単にトーク音声を作ることが出来る。
- 歌唱用音声合成ソフトに比べると調声用のパラメータが少なく、調声の自由度が低い。
Softalk
古くからあるフリーの音声合成ソフトです。こちらの名前よりも、「ゆっくり」という名前のほうを聞いたことのある方が多いかもしれません。
ニコニコ動画では様々な動画で使用されており、広く親しまれているソフトです。
「ゆっくりボイス」とも呼ばれる、独特なイントネーションのある機械音声が特徴です。因みに、同じゆっくりボイスを使用してトーク音声を作成するソフトに「棒読みちゃん」というソフトがあります。こちらはトーク音声の作成に加えて、掲示板やTwitterのコメントを読み上げる機能が付いています。この2つのソフトはたまに混同されることがありますが、それぞれ製作者の異なる別のフリーソフトになります。
Softalkは今まで紹介したソフトのように個別の音源ライブラリをインストールしてしゃべらせるというものではなく、ソフトにデフォルトで備えられている音声の種類を使い分けて使用する、という形式になっています。音声の種類には女性や男性、ロボ声等約30種類があり、意外と多くの音声が準備されています。その中でも特によく使用されているのが「女性01」という音声です。
このソフトのメリットは何よりもその手軽さです。
ソフトを起動させて、テキストボックスにセリフを入力して再生ボタンをクリックすればもうそれだけでトーク音声を再生してくれます。
さらにフリーソフトなので、ダウンロードすればその日のうちに無料で使用することができます。この手軽さとコストパフォーマンスは、今回紹介するソフトの中でもダントツ1位でしょう。
しかしながら、このようなソフトでも当然デメリットはあります。
それは高度な調声ができないという点です。
セリフ全体のしゃべるスピードや音程等は調節できるのですが、歌唱用音声合成ソフトのように所々で自由にしゃべるスピードを変えたり、ピッチ曲線を編集したりといった調声は出来ません。
ですので、人間に近いしゃべり方や感情のこもったトークを再現するのは難しいです。
無料で簡単に使えるという点では初心者向きですが、その中でも
という方に合っているソフトです。
VOICEROID
この記事の冒頭やSynthesizer Vの項で度々名前の出ているソフトですね。Synthesizer Vと同じくAHS社が販売している有料のトーク用音声合成ソフトです。
人気なキャラクターが非常に多いソフトで、VOCALOID音源もあり実況動画でも使用率の高い「結月ゆかり」、その相方役でよく使用される「弦巻マキ」、Synthesizer Vでも触れた、双子キャラである「琴葉茜」と「琴葉葵」、東北地方のイメージキャラクターである「東北ずん子」とその姉妹である「東北イタコ」と「東北きりたん」などが有名です。
VOICEROIDはこのソフト単体で使用することができるので、上記の歌唱用音声合成ソフトのように別途エディターソフトを準備する必要はありません。なので初めてでも導入に困ることはないでしょう。
そしてこちらもSoftalk同様、セリフを入力して再生するだけというとても簡単な作業でトーク音声を作成してくれます。しかも有料ソフトなだけあってSoftalkに比べてかなり人間に近いしゃべり方をしてくれます。
調声用のパラメータもいくつか用意されており、アクセント、音量、話速、高さ、抑揚等があります。これらを使って簡単な調声をすることも可能です。
さらに、最新のバージョンであるVOICEROID2では怒った声や悲しそうな声等、感情を込めた音声を作成する機能が追加されており、これによりリアリティのあるトークを作れるようになっています(残念ながら、紲星あかり等この機能に対応していない音源ライブラリもあります。すべてのVOICEROID2用の音源ライブラリで使えるわけではないので注意が必要です)。
しかし、これだけのソフトでも完璧ではなく、セリフによっては違和感のあるトーク音声が生成されることもあります。
上記のパラメータを使うことで修正できる場合もありますが、歌唱用音声合成ソフトのパラメータに比べるとどうしても自由度が低いのでなかなか難しいことが多いです。
ただ、この問題については最終手段としてVocalShifter等のボーカル編集ソフトを使ってピッチなどを調声し直すという方法もあります。どうしても違和感が気になる場合はこの方法を使うとよいでしょう。
以上をまとめますと、手軽に完成度の高いトークを作り出せるというのがVOICEROIDの強みです。
という方は向いているのではないでしょうか。気になる方は、AHS社の各VOICEROID製品の情報ページで簡易的に使用できますので是非試してみてください。
まとめ こんな人はこのソフトがおすすめ!
以上、歌唱用を4つ、トーク用を2つ、合計6つの音声合成ソフトの特徴を見てきました。
では、これらのソフトはどういった人におすすめなのかを、今まで見てきた特徴を確認しつつまとめていきましょう。
簡単に合成音声のトークを作りたい人
音声合成ソフトに触れるのが初めてで、とにかく簡単にトークを作成したいという人にはトーク用音声合成ソフトであるSoftalkとVOICEROIDがおすすめです。
歌唱用音声合成ソフトでトークをする場合、ほぼ必ず調声作業が必要になってきます。この作業が初心者にとっては難しい場合があります。
トーク用音声合成ソフトなら調声を全くしなくても完成度の高いトークが作成できるので、調声が苦手な方でも安心です。
まずはフリーソフトであるSoftalkを使ってみて使用感や音声を確認し、より高性能なソフトを使いたい、あるいは人間のような声でトークを作成したいという場合はVOICEROIDの購入を検討するとよいでしょう。
自分で自由な調声をやってみたい人
トーク用音声合成ソフトは簡単に高レベルのトークを作成できる反面、調声用のパラメータが少ないのでトークに違和感があった場合の修正が難しかったり、誰が作ったトークも似たような声になり個性が出しにくかったりします。
ですので「もっと自分で自由に調声したい」「個性的なトークを作成したい」という人には歌唱用音声合成ソフトが向いているでしょう。
特にSynthesizer VとDeepVocalは無料で使用でき、調声用のパラメータ数も少なくシンプルな構成なので初めての方におすすめです。
さらに複雑な調声をやってみたいという方は、調声用のパラメータ数の多いVOCALOIDやUTAUを使ってみるとよいでしょう。
特定のソフトに気に入ったキャラクターがいる人
上でも名前が出た初音ミクや結月ゆかり等、音声合成ソフトは大抵の音源ライブラリがキャラクター化されています。
どのキャラクターも魅力的なので、中には「このソフトのこのキャラクターが結構好み!気に入った!」となった人もいるのではないでしょうか。
もしそのようなキャラクターが見つかった場合は、是非そのキャラクターの音源ライブラリと、それに対応するソフトを使用してみてください!
お気に入りの音源ライブラリを使うことによって、トークをさせるモチベーションが上がります。モチベーションが上がると調声作業も楽しくなりますので、上記のような各ソフトの特徴は置いておいて、お気に入りのキャラクターから探していくのもよいでしょう。
最後に まだまだ存在する音声合成ソフト
以上、いくつかの音声合成ソフトをトークで使用する上での特徴と、各ソフトがどのような人におすすめかをまとめました。
音声合成ソフトの世界は広く、今回取り上げた音声合成ソフトは数ある音声合成ソフトの一部でしかありません。例を挙げると、CeVIOやガイノイド、最近人気沸騰中のNEUTRINO等、まだまだ存在しており、今後も新しいソフトが開発されていくことでしょう。
1つ言えることは、トーク用音声合成ソフトは当然のこと、歌唱用音声合成ソフトもピッチ曲線が調声できる限りトークをさせることは可能ですので、是非皆さんもいろいろな音声合成ソフトでトークを楽しんでください!