AI多人说话者的唇形同步已经到来

AI多说话者唇同步已到达
Rask AI是一种一站式本地化工具,允许内容创作者和公司快速高效地将其视频翻译成60多种语言。


Rask AI是一种由人工智能驱动的视频和音频本地化工具,宣布推出其新的多说话者唇同步功能。通过人工智能唇同步,75万用户可以将其内容翻译成130多种语言,听起来像是母语人士。

长期以来,配音内容中的唇部动作和声音之间一直存在着不同步的问题。专家认为,这是为什么配音在英语国家相对不受欢迎的原因之一。事实上,唇部动作使本地化内容更加逼真,因此更具吸引力。

有一项由语言学领域的知名教授平田由香里(Yukari Hirata)进行的研究表明,观察唇部动作(而不是手势)有助于感知第二语言中的困难音位对立。唇读也是我们学会说话的一种方式。

如今,借助Rask的新功能,可以将本地化内容提升到一个新的水平,使配音视频更加自然。

人工智能会根据参考资料自动重构下半部分的面部。它考虑说话者的外貌和他们的讲话内容,使最终结果更加逼真。

工作原理:

  1. 上传一个带有一个或多个人的视频。
  2. 将视频翻译成另一种语言。
  3. 点击“唇同步检查”按钮,算法将评估视频的唇同步兼容性。
  4. 如果视频通过检查,点击“唇同步”并等待结果。
  5. 下载视频。

根据Rask AI的创始人兼首席执行官Maria Chmir的说法,这一新功能将帮助内容创作者扩大受众。人工智能会通过视觉调整唇部动作,使角色看起来能够像母语人士一样流利地说话。

该技术基于生成对抗网络(GAN)学习,包括生成器和判别器。生成器和判别器彼此竞争,以保持领先一步。生成器明确生成内容(唇部动作),而判别器负责质量控制。

测试版发布对所有Rask订阅客户开放。

(编辑注:本文由Rask AI赞助)

标签: , , , , , ,