一种更快、更好的方法来防止AI聊天机器人产生有害回复

用户可以要求ChatGPT编写计算机程序或总结一篇文章,AI聊天机器人很可能能够生成有用的代码或写出有条理的摘要。然而,有人也可以要求提供制造炸弹的指示,聊天机器人也可能提供这些信息。

为了防止这种情况和其他安全问题,通常会使用一种称为红队测试的过程来保护构建大型语言模型的公司。人类测试人员编写旨在触发被测试模型中的不安全或有毒文本的提示。这些提示用于教导聊天机器人避免此类回应。

但是,只有当工程师知道要使用哪些有毒提示时,这种方法才能有效。如果人类测试人员错过了一些提示,鉴于可能性的数量,被认为是安全的聊天机器人仍然可能生成不安全的回答。

麻省理工学院的Improbable AI实验室和MIT-IBM Watson AI实验室的研究人员利用机器学习改进了红队测试。他们开发了一种训练红队大型语言模型自动生成多样化提示的技术,以触发被测试聊天机器人的更广泛的不良回应。

他们通过教导红队模型在编写提示时保持好奇心,并专注于能够从目标模型中引发有毒回应的新颖提示来实现这一点。

这种技术通过生成更多不同的提示来引发越来越有毒的回应,优于人类测试人员和其他机器学习方法。他们的方法不仅显著提高了与其他自动化方法相比正在测试的输入的覆盖范围,而且还可以从由人类专家构建的具有保护措施的聊天机器人中引出有毒回应。

“目前,每个大型语言模型都必须经过非常漫长的红队测试期来确保其安全性。如果我们希望在快速变化的环境中更新这些模型,这是不可持续的。我们的方法提供了一种更快、更有效的质量保证方式,”Improbable AI实验室的电气工程和计算机科学(EECS)研究生和该红队测试方法的主要作者张伟宏说。

张伟宏的合著者包括EECS研究生Idan Shenfield、Tsun-Hsuan Wang和Yung-Sung Chuang;麻省理工学院-IBM Watson AI实验室的研究科学家Aldo Pareja和Akash Srivastava;计算机科学与人工智能实验室(CSAIL)口语语言系统组的高级研究科学家和负责人James Glass;以及Improbable AI实验室主任、CSAIL助理教授Pulkit Agrawal。该研究将在国际学习表示会议上进行展示。

自动化红队测试 

大型语言模型,如驱动AI聊天机器人的模型,通常通过向它们展示来自数十亿个公共网站的大量文本进行训练。因此,它们不仅可以学会生成有毒词汇或描述非法活动,还可能泄露它们可能获取的个人信息。

人工红队测试的繁琐和昂贵性质,往往无法生成足够多样的提示来完全保护模型,这促使研究人员使用机器学习自动化这一过程。

这种技术通常使用强化学习来训练红队模型。这个试错过程奖励红队模型生成触发被测试聊天机器人有毒回应的提示。

但由于强化学习的工作方式,红队模型通常会继续生成一些相似的高度有毒的提示,以最大化其奖励。

对于他们的强化学习方法,麻省理工学院的研究人员利用了一种称为好奇驱动探索的技术。红队模型被激励于对其生成的每个提示的后果保持好奇心,因此它会尝试具有不同单词、句子模式或含义的提示。

“如果红队模型已经看到了一个特定的提示,那么重现它将不会在红队模型中引发任何好奇心,因此它将被推动去创建新的提示,”张伟宏说。

在训练过程中,红队模型生成一个提示并与聊天机器人进行交互。聊天机器人做出回应,安全分类器评估其回应的有毒程度,并根据该评级奖励红队模型。

奖励好奇心

红队模型的目标是通过使用新颖的提示引发更有毒的回应来最大化其奖励。研究人员通过修改强化学习设置中的奖励信号来使红队模型保持好奇心。

首先,除了最大化有毒性,他们还包括一个熵奖励,鼓励红队模型在探索不同提示时更加随机。其次,为了使代理程序保持好奇心,他们包括两个新颖性奖励。一个奖励模型基于其提示中单词的相似性,另一个奖励模型基于语义相似性。 (相似性较低则获得更高的奖励。)

为了防止红队模型生成随机的、无意义的文本,这可能欺骗分类器以给出高毒性评分,研究人员还在训练目标中添加了一项自然语言奖励。

在添加了这些内容后,研究人员比较了他们的红队模型生成的有毒回应的毒性和多样性与其他自动化技术。他们的模型在这两个指标上表现优于基准。

他们还使用他们的红队模型测试了一个经过人类反馈调优以不提供有毒回复的聊天机器人。他们的好奇驱动方法能够快速产生196个提示,从这个“安全”聊天机器人中引发有毒回应。

“我们正在看到模型的激增,这只会预计会增加。想象一下成千上万个模型,甚至更多,公司/实验室频繁推送模型更新。这些模型将成为我们生活的重要组成部分,重要的是在发布给公众之前对它们进行验证。手动验证模型根本不可扩展,我们的工作是试图减少人力投入,以确保更安全、可信赖的人工智能未来,”Agrawal说。

未来,研究人员希望使红队模型能够生成更多主题的提示。他们还希望探索使用大型语言模型作为毒性分类器的方法。通过这种方式,用户可以使用公司政策文件等来训练毒性分类器,以便红队模型可以测试聊天机器人是否违反公司政策。

“如果您发布了一个新的AI模型,并且担心它是否会按预期运行,请考虑使用好奇驱动的红队测试,”Agrawal说。

该研究部分资助来自现代汽车公司、Quanta Computer Inc.、MIT-IBM Watson AI实验室、亚马逊网络服务MLRA研究资助、美国陆军研究办公室、美国国防高级研究计划局机器常识计划、美国海军研究办公室、美国空军研究实验室和美国空军人工智能加速器。