MyShell发布了OpenVoice语音克隆人工智能。

一种名为OpenVoice的新开源AI以前所未有的速度和准确性提供语音克隆。

OpenVoice由麻省理工学院、清华大学和加拿大初创公司MyShell的研究人员开发，仅需几秒钟的音频即可克隆声音，并允许对音调、情感、口音、节奏等进行细致的控制。

MyShell本周在一篇帖子中发布了OpenVoice，其中链接到了一篇经过预审的研究论文，解释了该技术以及用户可以在MyShell和HuggingFace上尝试的演示站点。

Today, we proudly open source our OpenVoice algorithm, embracing our core ethos – AI for all.

Experience it now: https://t.co/zHJpeVpX3t. Clone voices with unparalleled precision, with granular control of tone, from emotion to accent, rhythm, pauses, and intonation, using just a… pic.twitter.com/RwmYajpxOt

— MyShell (@myshell_ai) January 2, 2024

双重AI模型实现即时语音克隆

OpenVoice由两个AI模型共同工作，用于文本到语音转换和语音音调克隆。

第一个模型处理语言风格、口音、情感和其他语音模式。它是通过对来自英语、中文和日语说话者的30,000个具有不同情感的音频样本进行训练而得到的。第二个“音调转换器”模型是通过学习超过300,000个样本和20,000个声音而得到的。

通过将通用语音模型与用户提供的语音样本相结合，OpenVoice可以用很少的数据克隆声音。这使得它比Meta的Voicebox等替代方案更快地生成克隆的语音。

加拿大初创公司

OpenVoice来自于加拿大卡尔加里的初创公司MyShell，成立于2023年。MyShell在早期融资中获得了560万美元，并已经拥有超过40万用户。MyShell自称是一个去中心化的创建和发现AI应用的平台。

除了开创即时语音克隆技术外，MyShell还提供原创的基于文本的聊天机器人个性化、模因生成器、用户创建的文本RPG等。一些内容需要付费订阅。该公司还向机器人创建者收费，以在其平台上推广他们的机器人。

通过通过HuggingFace开源其语音克隆能力，同时通过其更广泛的应用生态系统实现盈利，MyShell有望在两者之间增加用户，并推进AI开发的开放模式。

(照片由Claus Grünstäudl提供，来自Unsplash)

另请参阅：AI＆Big Data Expo：最大化实时数据流的价值

想要从行业领导者那里了解更多关于人工智能和大数据的知识吗？请查看在阿姆斯特丹、加利福尼亚和伦敦举办的AI＆Big Data Expo。这个全面的活动与Digital Transformation Week同期举办。

探索由TechForge提供支持的其他即将举行的企业技术活动和网络研讨会这里。

标签： ai, artificial intelligence, huggingface, myshell, openvoice, speech cloning, voice cloning

双重AI模型实现即时语音克隆

加拿大初创公司

相关文章

“SingularityNET押注超级计算机网络以实现AGI”

三星旨在通过LPDDR5X DRAM提升设备上的人工智能能力。

OpenAI发布了GPT-4 Turbo与Vision API的普遍可用性。

AI如何使在线赌场比以往任何时候都更安全