研究人员在亚马逊培训了一个新的大型语言模型(LLM),用于文本转语音,并声称它展示了“新兴”能力。
这个名为BASE TTS的模型拥有9.8亿个参数,是迄今为止最大的文本转语音模型。研究人员使用了多种规模的模型,并在多达10万小时的公共领域语音数据上进行训练,以观察它们是否会在达到一定规模后出现与自然语言处理模型相似的性能提升。
他们发现,他们中等规模的4亿参数模型,在训练了1万小时的音频后,在处理复杂的测试句子时显示出了更高的多样性和鲁棒性。
这些测试句子包含了复合名词、情感、外语单词和标点等复杂的词汇、句法和语音特征,这些特征通常会使文本转语音系统出现问题。虽然BASE TTS并没有完美地处理它们,但在重音、语调和发音方面的错误要比现有模型少得多。
研究人员解释说:“这些句子旨在包含具有挑战性的任务,而BASE TTS并没有明确训练来执行这些任务。”
模型的最大版本,拥有9.8亿个参数,并在10万小时的音频上进行了训练,没有展示出比4亿参数版本更多的能力。
虽然这是一个实验过程,但BASE TTS的创建表明,随着规模的扩大,这些模型可以达到新的多样性门槛,这对于会话式人工智能来说是一个令人鼓舞的迹象。研究人员计划进一步研究,以确定新兴能力的最佳模型大小。
该模型还被设计成轻量级和可流式传输,将情感和韵律数据分开打包。这可以使自然音色的语音在低带宽连接上传输。
完整的BASE TTS论文可以在arXiv上找到。
(照片由Nik在Unsplash上提供)
另请参阅:OpenAI向选定用户推出ChatGPT记忆功能
想要从行业领导者那里了解更多关于人工智能和大数据的知识吗?请查看在阿姆斯特丹、加利福尼亚和伦敦举办的AI & Big Data Expo。这个综合性的活动与其他领先的活动同时举办,包括BlockX、Digital Transformation Week和Cyber Security & Cloud Expo。
探索由TechForge提供支持的其他即将举行的企业技术活动和网络研讨会。