一种名为OpenVoice的新开源AI以前所未有的速度和准确性提供语音克隆。
OpenVoice由麻省理工学院、清华大学和加拿大初创公司MyShell的研究人员开发,仅需几秒钟的音频即可克隆声音,并允许对音调、情感、口音、节奏等进行细致的控制。
MyShell本周在一篇帖子中发布了OpenVoice,其中链接到了一篇经过预审的研究论文,解释了该技术以及用户可以在MyShell和HuggingFace上尝试的演示站点。
双重AI模型实现即时语音克隆
OpenVoice由两个AI模型共同工作,用于文本到语音转换和语音音调克隆。
第一个模型处理语言风格、口音、情感和其他语音模式。它是通过对来自英语、中文和日语说话者的30,000个具有不同情感的音频样本进行训练而得到的。第二个“音调转换器”模型是通过学习超过300,000个样本和20,000个声音而得到的。
通过将通用语音模型与用户提供的语音样本相结合,OpenVoice可以用很少的数据克隆声音。这使得它比Meta的Voicebox等替代方案更快地生成克隆的语音。
加拿大初创公司
OpenVoice来自于加拿大卡尔加里的初创公司MyShell,成立于2023年。MyShell在早期融资中获得了560万美元,并已经拥有超过40万用户。MyShell自称是一个去中心化的创建和发现AI应用的平台。
除了开创即时语音克隆技术外,MyShell还提供原创的基于文本的聊天机器人个性化、模因生成器、用户创建的文本RPG等。一些内容需要付费订阅。该公司还向机器人创建者收费,以在其平台上推广他们的机器人。
通过通过HuggingFace开源其语音克隆能力,同时通过其更广泛的应用生态系统实现盈利,MyShell有望在两者之间增加用户,并推进AI开发的开放模式。
(照片由Claus Grünstäudl提供,来自Unsplash)
另请参阅:AI&Big Data Expo:最大化实时数据流的价值
想要从行业领导者那里了解更多关于人工智能和大数据的知识吗?请查看在阿姆斯特丹、加利福尼亚和伦敦举办的AI&Big Data Expo。这个全面的活动与Digital Transformation Week同期举办。
探索由TechForge提供支持的其他即将举行的企业技术活动和网络研讨会这里。