Amazonの研究者たちが、これまでで最大の音声合成モデルを発表しました。
このモデルは、Big Adaptive Streamable TTS with Emergent abilitiesの頭文字をとったBASE TTS(テキスト音声合成)で、より人間に近いインタラクションを実現するための基盤となる可能性があります。
この研究によるとTTSモデルのための広範なトレーニングは、人工知能に使用される大規模言語モデル(LLM)と同じように、信頼性と汎用性を向上させることができるようです。
AmazonのBASE TTSが研究者をうならせる
この音声合成モデルは、パブリックドメインに存在する10万時間に及ぶ音声データで訓練されており、ツールに「最先端の自然さ」を与えているようです。主に英語ですが、ドイツ語、オランダ語、スペイン語のデータも使用されました。
さらに研究者たちは、1万時間分の音声でTTSモデルをトレーニングするだけでも、複雑な文章をより自然に表現する能力が向上することを発見しています。
BASE-largeは9億8,000万個のパラメータを持ち、これまでに作られた音声合成モデルの中で最大のものです。
研究チームは、結果を比較するために、4億と1億5000万のパラメータ、10,000時間と1,000時間の発話でより少ないモデルも訓練しました。
Amazonの研究チームは、BASE TTSを「わずか数秒の参照音声で話者の特徴を模倣できる忠実度の高いモデル」と説明し、さらなる研究の必要性を認識しつつも、その可能性を認めています。
研究者たちが注目した主な分野は、複合名詞、感情、外来語、パラリンガル、句読点、質問、構文の複雑さなどです。
画期的な人工知能が2023年の大半を占める中、2024年のこのような音声合成のブレークスルーは、かつて未来的だった技術を大衆の手にもたらし続ける可能性があります。
研究チームの慎重なアプローチは、セキュリティとプライバシーへの懸念の中、適切な規制の必要性を浮き彫りにしています。
reference:https://www.amazon.science/publications/base-tts-lessons-from-building-a-billion-parameter-text-to-speech-model-on-100k-hours-of-data/