AI サービス

Amazon史上最大のテキスト読み上げモデルを発表

Amazonの研究者たちが、これまでで最大の音声合成モデルを発表しました。

このモデルは、Big Adaptive Streamable TTS with Emergent abilitiesの頭文字をとったBASE TTS(テキスト音声合成)で、より人間に近いインタラクションを実現するための基盤となる可能性があります。

この研究によるとTTSモデルのための広範なトレーニングは、人工知能に使用される大規模言語モデル(LLM)と同じように、信頼性と汎用性を向上させることができるようです。

AmazonのBASE TTSが研究者をうならせる

この音声合成モデルは、パブリックドメインに存在する10万時間に及ぶ音声データで訓練されており、ツールに「最先端の自然さ」を与えているようです。主に英語ですが、ドイツ語、オランダ語、スペイン語のデータも使用されました。

さらに研究者たちは、1万時間分の音声でTTSモデルをトレーニングするだけでも、複雑な文章をより自然に表現する能力が向上することを発見しています。

BASE-largeは9億8,000万個のパラメータを持ち、これまでに作られた音声合成モデルの中で最大のものです。

研究チームは、結果を比較するために、4億と1億5000万のパラメータ、10,000時間と1,000時間の発話でより少ないモデルも訓練しました。

Amazonの研究チームは、BASE TTSを「わずか数秒の参照音声で話者の特徴を模倣できる忠実度の高いモデル」と説明し、さらなる研究の必要性を認識しつつも、その可能性を認めています。

研究者たちが注目した主な分野は、複合名詞、感情、外来語、パラリンガル、句読点、質問、構文の複雑さなどです。

画期的な人工知能が2023年の大半を占める中、2024年のこのような音声合成のブレークスルーは、かつて未来的だった技術を大衆の手にもたらし続ける可能性があります。

研究チームの慎重なアプローチは、セキュリティとプライバシーへの懸念の中、適切な規制の必要性を浮き彫りにしています。

reference:https://www.amazon.science/publications/base-tts-lessons-from-building-a-billion-parameter-text-to-speech-model-on-100k-hours-of-data/

今日の一杯 赤ワイン

2025/7/7

フェウド・アランチョ ネロ・ダーヴォラ レビュー|今日の一杯 赤ワイン

「フェウド・アランチョ ネロ・ダーヴォラ」は、味わい深く、コスパの良い、安定した品質の一本です。 トマト系の煮込み料理や、チーズをたっぷりのせたラザニアとも合い、もちろん、静かな夜にひとりでグラスを傾ける時間にもぴったり。 海外の専門家たちからも高評価を得ており、日常使いからしっかりした食事まで汎用的に活躍します。 味と風味 口に含むと、熟したダークベリーやラズベリーの果実味が広がりながら、後半にかけてほんのりドライハーブのような余韻が続きます。 酸味は控えめで、タンニンはしっかりしています。 飲みごたえ ...

続きを読む

エナジードリンク 今日の一杯

2025/6/30

ZONe ENERGY ABSOLUTE VICTORY 勝 レビュー|今日の一杯 エナジードリンク

ZONe ABSOLUTE VICTORYは2025年1月に発売されたエナジードリンクです。 受験勉強をイメージしたデザインの商品で、学問の神様として知られる菅原道真公を祀る太宰府天満宮に「HYPER ZONe 」を奉納し、受験生の合格を祈願しているそうです。 寒い冬に体を温めるように、成分にジンジャーシロップが配合されており、堅調に生姜の味がします。 カナダドライのジンジャーエールとはまた違う、比較的マイルドな飲みやすい生姜ジュースといった印象です。 ZONeの1本あたりのカフェイン量は75mgとコーヒ ...

続きを読む

  • この記事を書いた人

朝倉卍丸

シングルモルトスコッチなどのお土産を持ってきた人を助けるのが好きです。サービスの分割が重要ですが、まあ昔ながらの方法でやりたいこともありますよね。

よく読まれている記事

条件の0=0は全てが正であるを意味するSQL 1

SQLの条件に0=0のような記述を見かけます。 変わった書き方の条件ですが、これは「全てが正である」事を意味しており、結合条件の場合はCROSS JOINと同じです。 下記の例で言えば、結合するsub ...

DISTINCTを使わないで重複排除を考えるSQL 2

SQLのDISTINCTはEXISTSとかGROUP BYでなんとかする事もできます。 DISTINCTは暗黙的なソートがされますが、何のDBを使うにせよ過去のバージョンならともかく、最近のバージョン ...

RFC 5322に準拠させた正規表現言語別 3

RFC5322で定義されている正規表現を、各言語の正規表現に変化させた形になります。 完全な電子メール正規表現は存在しないので、結局のところ何かの公式基準に従っていたとしても、自分が携わるサービスのル ...

-AI, サービス