米Meta社が発表した音声生成AIモデル「Voicebox」とは?機能や特徴を分かりやすく解説します
INDEX
2023年6月、アメリカのMeta社が「Voiccebox」を発表しました。
Voiceboxとは高品質のオーディオクリップを生成する「音声生成AI」です。わずか2秒の音源をベースに、類似した音声を生成できる優れものです。
しかし、現状はさまざまな悪用が懸念され、発表はされたものの活用には至っていません。
本記事では、アメリカのMeta社が発表した音声生成AIモデル「Voicebox」の概要・機能・特徴を解説します。
さまざまな場面で活用が期待される音声生成AIに興味がある方は、ぜひ一読ください。
「Voicebox」とは
Voiceboxとは、アメリカの「Meta社」が開発した高品質のオーディオクリップを生成する「音声生成AI」です。オーディオの編集・サンプリング・スタイリングに役立ちます。
具体的には、録音した音源に予想外の音が入ってしまった際の編集や、6つの言語に対応した多言語音声の生成が可能です。
また、わずか2秒の入力音源をサンプルとして音声を読み上げることができ、そのサンプルの声によく似た声を発生できます。
将来的には、メタバースへの応用・オーディオクリエイターへの便利ツールに加え、視覚障害者向けの音声生成支援といった社会福祉へのサポートまで期待できるでしょう。
ただしMeta社は、VoiceBoxが「誤用や意図しない危害をもたらす可能性がある」として、そのモデルやコードを一般公開していません。
現状は、開発されただけで活用は進んでいない状態です。
「Voicebox」の主な機能
Voiceboxの主な機能は、次の5つです。
- 高品質な音声生成
- 6つの多言語対応
- テキスト読み上げ合成
- 音声の編集とノイズの削除
- 言い間違い修正
Voiceboxは6つの言語に対応でき、わずか2秒の音源で似た声の音声を生成できる優れものです。
幅広い分野で活用できそうな高水準の機能が揃っています。
高品質な音声生成
Voiceboxは、入力した音源の内容とスタイルを維持しながら、高品質な音声を生成できます。
「In-contextラーニング」を用いて、トレーニングされていないタスクを実行できるためです。
In-contextラーニングとは、特定のタスクにおいてパラメーターを更新することなく、入出力した内容を見る中で学習するシステムを指します。
入力された音源に対して、変化をつけることなく忠実に学習することが特徴です。
そのため、Voiceboxはもとの音源の質を維持しながら忠実に再現でき、高品質な音声を生成できます。
6つの多言語対応
Voiceboxは、6つの多言語対応が可能です。英語・フランス語・スペイン語・ドイツ語・ポーランド語・ポルトガル語の6つになります。
50,000時間以上の録音音声とトランスクリプトを使用してトレーニングされました。
これにより、Voiceboxは入力された音声やセグメント化されたトランスクリプトが与えられたときに、音声セグメントを予測するようにトレーニングされています。
そのため、学習した言語であれば、入力内容や設定どおりの言語生成が可能です。
また、In-contextラーニングにより入力された音源をもとに生成するため、入力の途中でも似たような音声を生成できます。
そして、Voiceboxの多言語対応機能を活用できれば、人々は同じ言語が話せなくても自然にコミュニケーションが取れるようになるでしょう。
テキスト読み上げ合成
Voiceboxはわずか2秒の音声テキストをサンプルとして、サンプルのスタイルに合わせた音声を生成し、読み上げられます。
この機能を活用すれば、会話が難しい人々に音声の提供が可能です。また、視覚障害があり、文字を読めなくても声により誰からのメッセージなのか確認できるでしょう。
さらに、自分の声をベースにしたゲームキャラクターを構築でき、ゲーム上で会話を楽しめます。
このように福祉やゲームなどさまざまな分野の活用が期待できるでしょう。
音声の編集とノイズ削除
VoiceboxはIn-contextラーニングにより、音声を生成して録音された音源をシームレスに編集できます。
また、犬や猫の鳴き声・車のエンジン音など音源に入ってしまった雑音を綺麗に取り除けるでしょう。
音源内のどの部分が雑音によって破壊されているかを特定し、トリミング・再生成を行い、雑音のない音源に仕上げられます。
数年前に画像を簡単に編集できるツールが開発され、現在ではスマホで簡単に画像編集が可能です。
Voicboxを活用すれば、画像編集と同じくらい簡単に音声編集ができるようになるでしょう。
言い間違い修正
Voiceboxは、言い間違い修正も可能です。先述したIn-contextラーニングによる雑音編集と同じ方法で修正します。
言い間違いが含まれた音源から、言い間違い箇所のトリミング・正確に表現された音源の生成により、言い間違いが修正された音声を作り出せます。
この機能が確立されれば、録音する際に言い間違えてもあとから編集できるため便利です。
「Voicebox」の特徴
Voiceboxの主な特徴は、次の3つが挙げられます。
- Flow Matchingの適用
- 多様で変化に富んだトレーニングの実現
- 誤用・意図しない害が発生する危険性
さまざまな機能があるVoiceboxは、Flow Matchingの適用により生まれました。ラベル付けなしの学習を可能にし、多様で変化に富んだトレーニングを実現できます。
ただし、どのような音源でも自動で生成できる高度な技術が意図しない害を発生させる危険性を秘めており、実際に活用するための課題となっています。
Flow Matchingの適用
Voiceboxは、Flow Matchingをベースに構築されています。
Flow Matchingとは非自己回帰的生成モデルのことで、テキストと音声を非決定性マッピングによりラベル付けなしで学習可能にする機能です。
Meta社から具体的な仕組みは発表されていませんが、Flow Matchingがベースといわれています。
Meta社によると「テキストの読み上げにおいて、明瞭度・音声の類似性の両方の点でVALL-Eを上回っている」ということです。
VALL-Eは、Microsoftが開発した英語対応の音声合成AIで、3秒間の音声サンプルから音声を再現できます。英語以外の言語に対応した「VALL-EX」も公開されています。
また、言語の壁を越えたスタイルの転送では「YourTTS」を上回ったと発表されました。平均単語誤り率・音声の類似性の両方で上回っています。
YourTTSは、サンパウロ大学の数学コンピューター科学研究所の学生が発表したもので、1分未満の音源をもとに類似した音声を生成するシステムです。
多様で変化に富んだトレーニングの実現
Voiceboxは、多様で変化に富んだトレーニングを実現しています。
先述したように、VoiceboxはIn-contextラーニングを採用しており、ラベル付けされることなく学習できるためです。
ラベル付けとは、それぞれの機械学習に対する答えを示すことを指します。Voiceboxは答えを提示されないため、AIがその答えを導きだします。
そのため、サンプルをもとに忠実に再現できるように、サンプルの多様性とともに導き出す答えも多様に表現できるでしょう。
このトレーニングにより、さまざまな音源をベースに音声を再現できる点が特徴です。
誤用・意図しない害が発生する危険性
Voiceboxはさまざまな音源を再現できる画期的な生成AIですが、その高機能によって、誤用・意図しない害が発生する危険性について懸念されています。
実際に、わずか2秒の音源を入手できれば、その音源と類似した音声の生成が可能です。誰かになりすまし、電話による「振り込め詐欺」も可能になるでしょう。
また、有名なシンガーの声を悪用して勝手に歌を作成することも可能です。
このようにさまざまな危険性が考えられており、現在ではVoiceboxのモデルやコードの一般公開は行われていません。
今後は、慎重に活用方法の検討がなされるでしょう。
「Voicebox」の今後の可能性
Voiceboxの今後の可能性について、次のようなものが挙げられます。
- 視覚障害者向けの音声生成支援
- メタバースへの応用
- バリエーション豊かな音声
Voiceboxは悪用される危険性があるものの、ポジティブに考えると可能性の広がる技術です。
マイナス要素の解消は課題ですが、よい使い方をすれば救われる人も多いでしょう。人々の生活が豊かになるような使い道が望まれます。
視覚障害者向けの音声生成支援
Voiceboxの技術は、視覚障害者向けの音声生成支援に役立てられそうです。実際に、文字が読めなくてもその文字が音声になれば、理解できるようになります。
例えば知り合いに手紙をもらった場合、その声が実際に文字を書いた人間の声であれば、近くで話をしているような感覚になれるでしょう。
また街の掲示板や駅の案内表示など、文字で書かれている部分が音声に変えられるシステムが生まれれば、外出もしやすくなります。
このように視覚障害者向けの支援に活用できれば、多くの人が救われるでしょう。
メタバースへの応用
Voiceboxのメタバースへの応用が期待されています。メタバースとは、インターネット上の仮想空間のことです。
メタバースの仮想アシスタントやプレイヤー以外のキャラクターに、自然な声を提供できます。
例えばボーカロイドを使ったキャラクターがいる場合は、実際に存在する歌手の声を使用することも可能です。
いかにも「機械的な声」ではなく、人の自然の声を体験できるようになるでしょう。
ただし、人の声を使うということは著作権の問題が起こりかねません。
Voiceboxの活用に当たっては、さまざまな決まり事が必要になるでしょう。
バリエーション豊かな音声
Voiceboxを活用できれば、バリエーション豊かな音声を活用できるようになるでしょう。
例えば、音声や音楽を使用するクリエイターの場合、編集作業に役立てられます。
この記事で紹介したように、Voiceboxは雑音や言い間違えの修正が可能です。雑音が入るような場所で録音した場合も、必要な音源だけに加工できます。
一発勝負の音声の収録の際は、万が一間違えてもあとから修正可能です。
また、動画の作成でも役立ちます。わずか2秒の音源があれば、必要な音声を生成できるため、活用したいときに自由に活用できるようになるでしょう。
「音」を扱うクリエイターにとっては、必須のアイテムになりそうです。
まとめ
Voiceboxとは、質の高い音声を生成するAIです。わずか2秒の音源から、類似した音声を生成できます。
6つの多言語に対応しており、音声の編集やノイズの削除などさまざまな機能が特徴です。
ただし悪用が懸念され、現在は開発段階で止まっています。
安全性が担保されれば、視聴覚障害者への音声生成支援・メタバースへの応用・クリエイターの便利ツールなど活用の幅が広がるでしょう。
課題は多いものの、今後の活用が期待されます。
さらに、今注目を集める生成AIリスキリングの第一歩を。生成AIパスポートとは?
生成AIパスポートは、一般社団法人生成AI活用普及協会(GUGA)が提供する、AI初心者のために誕生した、生成AIリスクを予防する資格試験です。AIを活用したコンテンツ生成の具体的な方法や事例に加え、企業のコンプライアンスに関わる個人情報保護、著作権侵害、商用利用可否といった注意点などを学ぶことができます。
⽣成AIの台頭により、AIはエンジニアやデータサイエンティストといった技術職の方々だけではなく誰もがAIを使えるようになりました。今、私たちがインターネットを当たり前に活用していることと同様に、誰もが生成AIを当たり前に活用する未来が訪れるでしょう。
そのような社会では、採用や取引の場面で、生成AIを安全に活用できる企業・人材であることが選ばれる前提条件になり「生成AIレベルの証明」が求められることが予測できます。生成AIパスポート試験に合格すると、合格証書が発行されるため、自身が生成AIを安全に活用するためのリテラシーを有する人材であることを、客観的な評価として可視化することが可能です。
ぜひあなたも生成AIレベルを証明し「生成AI人材」に仲間入りしましょう!