亚马逊开发出有史以来最大的文本转语音模型,展现“涌现能力”

2024-02-18每日热点

  IT之家 2 月 18 日消息,亚马逊人工智能研究团队宣布开发了一个据称是史上最大的文本转语音模型,该模型拥有最多的参数,并使用了最大的训练数据集。研究人员已经在 arXiv 预印本服务器上发表了一篇论文,详细描述了模型的开发和训练过程。

  近年来,像 ChatGPT 这样的“大型语言模型”凭借其智能回答问题和生成高级文本的能力而备受关注。然而,人工智能也在逐步融入其他主流应用领域。在这个新项目中,研究人员尝试通过增加参数数量和扩充训练数据集来提升文本转语音应用的能力。

  据IT之家了解,这个名为“可扩展流式文本转语音模型”(BASE TTS)的新模型拥有 9.8 亿个参数,并使用 10 万小时的录音(来自公共网站)进行训练,其中大部分为英语语音。研究人员还向模型提供了其他语言的单词和短语示例,使其能够正确发音一些常见的表达,例如“au contraire” 和 “adios, amigo”。

  亚马逊团队还测试了使用较小数据集的模型,希望能从中发现人工智能领域所说的“涌现能力”。这种能力是指人工智能应用,无论是大型语言模型还是文本转语音模型,突然突破到更高智能水平的现象。他们发现,对于文本转语音应用而言,这种飞跃发生在参数量达到 1.5 亿的中型数据集上。

  研究人员还指出,这种飞跃涉及一系列语言属性,例如使用复合名词、表达情感、使用外语词、应用语音学和标点符号以及正确强调句子中的关键词等能力。

  研究团队表示,出于对潜在滥用风险的担忧,BASE TTS 将不会向公众开放,他们计划将其作为学习应用,并期望将学到的知识应用于改善文本转语音应用的整体音质。

标签: 今日热榜

“亚马逊开发出有史以来最大的文本转语音模型,展现“涌现能力”” 的相关文章

代码显示苹果2024款OLED iPad Pro有望采用横向Face ID

代码显示苹果2024款OLED iPad Pro有望采用横向Face ID

  IT之家 1 月 26 日消息,数据挖掘者 Steve Moser 日前在苹果 iPadOS 17.4 中发现,苹果公司即将在今年 3 月推出的 2024 款 OLED iPad Pr...

小米14系列限量定制色发布,采用SU7汽车同款配色

小米14系列限量定制色发布,采用SU7汽车同款配色

  IT之家 12 月 28 日消息,在今日下午的小米汽车技术发布会上,小米官方公布了小米 14 手机和小米手表 S3 的限量定制色。   其中,小米...

为找到商业化落地“绿洲”,地平线、黑芝麻们急于“找水源”

为找到商业化落地“绿洲”,地平线、黑芝麻们急于“找水源”

  编者按:   今年,新能源汽车行业的内卷之战,已走向尾声。   2024年的新能源汽车产业战局,会更加内卷和激烈。新能源车企们一...

台积电创办人张忠谋指出,未来半导体需求会更多

台积电创办人张忠谋指出,未来半导体需求会更多

  集微网消息,台积电创办人张忠谋2月24日指出,将来半导体需求一定会更多,成千上万的晶圆制造能量已经就位,未来几年通过AI协助,还会看到更多产能,需求不是几万片或几十...

新加坡利用AI,成功制造磁性纳米石墨烯量子材料

新加坡利用AI,成功制造磁性纳米石墨烯量子材料

  集微网消息,近日新加坡研究人员利用人工智能(AI),成功精确制造出磁性纳米石墨烯量子材料。化学家可以在单分子层面精确制造有机量子材料,这展现了AI在材料科学领域的研...

SSD等存储涨价20%起:铠侠、西部数据坐不住了 趁机提高产能

SSD等存储涨价20%起:铠侠、西部数据坐不住了 趁机提高产能

  快科技3月19日消息,调研机构TrendForce给出的报告显示,随着SSD等存储持续涨价,这也让不少头部厂商开始来扩大产能。   在NAND Flash涨价将持续至...