Amazon史上最大のテキスト読み上げモデルを発表

2024年2月16日

Amazonの研究者たちが、これまでで最大の音声合成モデルを発表しました。

このモデルは、Big Adaptive Streamable TTS with Emergent abilitiesの頭文字をとったBASE TTS（テキスト音声合成）で、より人間に近いインタラクションを実現するための基盤となる可能性があります。

この研究によるとTTSモデルのための広範なトレーニングは、人工知能に使用される大規模言語モデル（LLM）と同じように、信頼性と汎用性を向上させることができるようです。

AmazonのBASE TTSが研究者をうならせる

この音声合成モデルは、パブリックドメインに存在する10万時間に及ぶ音声データで訓練されており、ツールに「最先端の自然さ」を与えているようです。主に英語ですが、ドイツ語、オランダ語、スペイン語のデータも使用されました。

さらに研究者たちは、1万時間分の音声でTTSモデルをトレーニングするだけでも、複雑な文章をより自然に表現する能力が向上することを発見しています。

BASE-largeは9億8,000万個のパラメータを持ち、これまでに作られた音声合成モデルの中で最大のものです。

研究チームは、結果を比較するために、4億と1億5000万のパラメータ、10,000時間と1,000時間の発話でより少ないモデルも訓練しました。

Amazonの研究チームは、BASE TTSを「わずか数秒の参照音声で話者の特徴を模倣できる忠実度の高いモデル」と説明し、さらなる研究の必要性を認識しつつも、その可能性を認めています。

研究者たちが注目した主な分野は、複合名詞、感情、外来語、パラリンガル、句読点、質問、構文の複雑さなどです。

画期的な人工知能が2023年の大半を占める中、2024年のこのような音声合成のブレークスルーは、かつて未来的だった技術を大衆の手にもたらし続ける可能性があります。

研究チームの慎重なアプローチは、セキュリティとプライバシーへの懸念の中、適切な規制の必要性を浮き彫りにしています。

reference:https://www.amazon.science/publications/base-tts-lessons-from-building-a-billion-parameter-text-to-speech-model-on-100k-hours-of-data/

今日の一杯赤ワイン

2025/7/7

フェウド・アランチョネロ・ダーヴォラレビュー｜今日の一杯赤ワイン

「フェウド・アランチョネロ・ダーヴォラ」は、味わい深く、コスパの良い、安定した品質の一本です。トマト系の煮込み料理や、チーズをたっぷりのせたラザニアとも合い、もちろん、静かな夜にひとりでグラスを傾ける時間にもぴったり。海外の専門家たちからも高評価を得ており、日常使いからしっかりした食事まで汎用的に活躍します。味と風味口に含むと、熟したダークベリーやラズベリーの果実味が広がりながら、後半にかけてほんのりドライハーブのような余韻が続きます。酸味は控えめで、タンニンはしっかりしています。飲みごたえ ...

エナジードリンク今日の一杯

2025/6/30

ZONe ENERGY ABSOLUTE VICTORY 勝レビュー｜今日の一杯エナジードリンク

ZONe ABSOLUTE VICTORYは2025年1月に発売されたエナジードリンクです。受験勉強をイメージしたデザインの商品で、学問の神様として知られる菅原道真公を祀る太宰府天満宮に「HYPER ZONe 」を奉納し、受験生の合格を祈願しているそうです。寒い冬に体を温めるように、成分にジンジャーシロップが配合されており、堅調に生姜の味がします。カナダドライのジンジャーエールとはまた違う、比較的マイルドな飲みやすい生姜ジュースといった印象です。 ZONeの1本あたりのカフェイン量は75mgとコーヒ ...

朝倉卍丸

シングルモルトスコッチなどのお土産を持ってきた人を助けるのが好きです。サービスの分割が重要ですが、まあ昔ながらの方法でやりたいこともありますよね。

よく読まれている記事

1: 条件の0=0は全てが正であるを意味する [SQL]

SQLの条件に0=0のような記述を見かけます。変わった書き方の条件ですが、これは「全てが正である」事を意味しており、結合条件の場合はCROSS JOINと同じです。下記の例で言えば、結合するsub ...

2: DISTINCTを使わないで重複排除を考える [SQL]

SQLのDISTINCTはEXISTSとかGROUP BYでなんとかする事もできます。 DISTINCTは暗黙的なソートがされますが、何のDBを使うにせよ過去のバージョンならともかく、最近のバージョン ...

3: RFC 5322に準拠させた正規表現言語別

RFC5322で定義されている正規表現を、各言語の正規表現に変化させた形になります。完全な電子メール正規表現は存在しないので、結局のところ何かの公式基準に従っていたとしても、自分が携わるサービスのル ...

-AI, サービス

コラムサービス

2025/7/11

強力なパスワードの作り方｜総当たり攻撃への備え方

オンラインアカウントを守るためには、「強くてユニークなパスワードを使うこと」が極めて重要です。サイバーセキュリティ企業Hive Systemsによれば、パスワードの強度によって、ハッカーが総当たり攻撃（ブルートフォース）で突破するまでの時間に大きな差があります。最近はAIなどの高度な手法により、簡単なパスワードは瞬時に破られてしまいます。特に4文字以下や記号を含まないパスワードは極めて危険です。最も安全なのは、14〜18文字で構成され、数字、大文字・小文字、記号を組み合わせた複雑なパスワードです。こ ...

コラムサービス

2023/11/9

The utopia and illusion of those who think they can get by with tools

For decades, tool vendors and industry pundits often said they were seeing signs of tools that would make programming unnecessary. The first to bear such promise was, ironically, FORTRAN. FORTRAN is an acronym for FORmula TRANslation, and the idea was to ...

コラムサービス

2023/8/31

Propagation of bad money brought about by shitty websites for developers in Japan

Recently, I have been working with a vendor with a low unit price, and I have been having trouble with the amount of work I have to point out because the quality of the work is not flattering. The vendors who are not good at what they do tend to have the ...

AI ChatGPT SEO

2025/7/3

AI時代に向けた新たなウェブ対応｜LLMs.txtの存在

非人間のウェブ訪問者、いわゆる「ボット」は1990年代から存在していますが、現在は検索のあり方が変わりつつあり、サイト運営者はAIエージェントの訪問にも備える必要が出てきました。 GoogleのWeb AIリード、ジェイソン・メイズ氏はWordCamp Europeで「AIエージェントの時代が到来している」と発言しました。ホスティング大手のHostingerもその動きを支持し、WordPressサイト向けに「LLMs.txtファイル自動生成ツール」を提供開始しています。 AIエージェントは、Google ...

AI ChatGPT

2025/6/27

ChatGPTの間違いに騙されない考え方6選｜失敗しないためのマインドセット

ChatGPTは、旅行の計画、メール作成、コードのデバッグ、メンタルのサポート、マッチングアプリのプロフィール作成など、幅広く活用されています。利用者は急増しており、多くの人がすでに日常的に使っています。驚くべきことに、その仕組みを正しく理解している人は意外と少ないのが現実です。これは当然とも言えます。AIは「賢い」と思われがちですが、本質的には「予測による文章生成機」。つまり、事実ではなく「もっともらしく見える文章」を出力するに過ぎません。この「ハルシネーション（事実でない内容を出す現象）」は非 ...

ffmpegコマンドで画像ファイルを圧縮する

閏年のある年プログラムで注意すべきこと