最近,音频深度伪造技术因一段声称是乔·拜登(Joe Biden)的人工智能生成的电话轰炸而受到了负面报道,该电话呼吁新罕布什尔州居民不要投票。与此同时,钓鱼者们——专门针对特定人或群体进行网络钓鱼活动,尤其是利用已知对目标感兴趣的信息——正在寻找金钱,而演员们则致力于保护他们的音频形象。
然而,很少有媒体报道音频深度伪造技术实际上可能对社会有益的用途。在这篇为麻省理工学院新闻准备的问答中,博士后Nauman Dawalatabad讨论了这种新兴技术的担忧和潜在优势。完整版本的采访可以在下面的视频中观看。
问: 在音频深度伪造中,有哪些伦理考虑可以证明隐藏源发言人身份的合理性,尤其是当这种技术用于创造创新内容时?
答: 尽管生成模型在娱乐领域中主要用于音频创作,但研究为何在模糊源发言人身份方面具有重要性确实引发了伦理考虑。语音不仅包含关于“你是谁?”(身份)或“你在说什么?”(内容)的信息;它还包含了大量敏感信息,包括年龄、性别、口音、当前健康状况,甚至是关于未来健康状况的线索。例如,我们最近的一篇关于“从长时间神经心理学访谈中检测痴呆症”的研究论文表明,通过语音可以以相当高的准确性检测痴呆症的可行性。此外,有多种模型可以以非常高的准确性检测性别、口音、年龄和其他语音信息。我们需要先进的技术来防止意外泄露此类私人数据。匿名化源发言人身份的努力不仅是一个技术挑战,而且是在数字时代保护个人隐私的道义义务。
问: 在考虑到音频深度伪造在钓鱼攻击中带来的挑战时,我们如何有效地应对相关风险、制定对策和推进检测技术的发展?
答: 音频深度伪造在钓鱼攻击中的应用引入了多种风险,包括误导性虚假信息和假新闻的传播、身份盗窃、侵犯隐私以及恶意篡改内容。最近在马萨诸塞州流传的欺骗性电话轰炸就是这种技术的有害影响的例证。我们最近还与《波士顿环球报》讨论了这项技术,以及生成此类深度伪造音频的容易和廉价性。
任何没有重要技术背景的人都可以轻松生成这样的音频,有多种在线工具可供选择。这些深度伪造生成器产生的假新闻可能扰乱金融市场,甚至影响选举结果。盗用他人的声音以访问语音操作的银行账户,以及未经授权利用他人的声音身份谋取经济利益,提醒我们迫切需要强大的对策措施。进一步的风险可能包括隐私侵犯,攻击者可以在未经许可或同意的情况下利用受害者的音频。此外,攻击者还可以篡改原始音频的内容,这可能会产生严重影响。
在设计检测假音频系统时,出现了两个主要的方向:伪迹检测和活体检测。当音频由生成模型生成时,模型会在生成的信号中引入一些伪迹。研究人员设计算法/模型来检测这些伪迹。然而,由于音频深度伪造生成器的日益复杂,这种方法存在一些挑战。在未来,我们可能还会看到几乎没有伪迹或几乎没有伪迹的模型。另一方面,活体检测利用自然语音的固有特性,如呼吸模式、语调或节奏,这些特性对于人工智能模型来说很难准确复制。像Pindrop这样的公司正在开发这样的解决方案来检测音频伪造。
此外,音频水印等策略作为积极的防御手段,将加密标识符嵌入原始音频中,以追踪其来源并防止篡改。尽管存在其他潜在的漏洞,例如重放攻击的风险,但在这个领域的持续研究和发展提供了有希望的解决方案,以减轻音频深度伪造带来的威胁。
问: 尽管音频深度伪造技术存在被滥用的潜力,但它们有哪些积极方面和好处?您如何想象人工智能与我们的音频感知体验的未来关系将发展?
答: 与对音频深度伪造的恶意应用的主要关注相反,这项技术在各个领域都具有巨大的积极影响潜力。在创造力领域之外,声音转换技术在娱乐和媒体领域带来了前所未有的灵活性,音频深度伪造在医疗保健和教育领域具有变革性的潜力。例如,我目前正在进行的关于在认知健康护理访谈中对患者和医生的声音进行匿名化的工作,有助于在确保隐私的同时全球共享重要的医疗数据用于研究。在研究人员之间共享这些数据促进了认知健康护理领域的发展。这项技术在声音恢复方面的应用为患有言语障碍的人们带来了希望,例如对于肌萎缩侧索硬化症或发音障碍的人,提高了沟通能力和生活质量。
我对音频生成人工智能模型的未来影响非常乐观。人工智能与音频感知之间的未来相互作用注定会取得突破性的进展,特别是通过心理声学的视角——即人类如何感知声音的研究。增强现实和虚拟现实的创新,如苹果Vision Pro等设备,正在将音频体验推向前所未有的逼真程度。最近我们看到了几乎每个月都有大量复杂模型的指数级增长。这个领域的研究和发展的快速步伐不仅有望完善这些技术,而且还将以深刻影响社会的方式扩展其应用。尽管存在固有风险,音频生成人工智能模型革新医疗保健、娱乐、教育等领域的潜力证明了这一研究领域的积极发展方向。