OpenAI的安全保障过程中的一个关键部分是“红队”——一种结构化的方法,利用人类和AI参与者来探索新系统中的潜在风险和脆弱性。
历史上,OpenAI主要通过手动测试进行红队工作,这涉及到个人寻找弱点。这在2022年初测试他们的DALL·E 2图像生成模型时尤为明显,当时邀请了外部专家来识别潜在风险。从那时起,OpenAI扩展和完善了其方法,结合了自动化和混合方法,以进行更全面的风险评估。
“我们乐观地认为,我们可以利用更强大的AI来扩大模型错误的发现,”OpenAI表示。这种乐观源于自动化过程可以帮助评估模型并通过识别更大规模的模式和错误来训练它们变得更安全的想法。
在他们最新的推进中,OpenAI分享了两份关于红队的重要文件——一份白皮书详细说明了外部参与策略,另一份研究报告介绍了一种新的自动化红队方法。这些贡献旨在加强红队的过程和结果,最终导致更安全和更负责任的AI实施。
随着AI的不断发展,理解用户体验和识别滥用和误用等风险对研究人员和开发人员至关重要。红队提供了一种主动评估这些风险的方法,特别是当补充来自一系列独立外部专家的见解时。这种方法不仅有助于建立基准,还促进了安全评估的逐步提升。
人性化的触碰
OpenAI在其白皮书中分享了设计有效红队活动的四个基本步骤,“OpenAI对AI模型和系统的外部红队方法,”:
- 红队的组成:团队成员的选择基于活动的目标。这通常涉及具有不同视角的个人,例如自然科学、网络安全和地区政治的专业知识,确保评估涵盖必要的广度。
- 模型版本的访问:明确红队成员将访问哪些版本的模型可以影响结果。早期阶段的模型可能揭示固有风险,而更成熟的版本可以帮助识别计划安全缓解措施中的差距。
- 指导和文档:活动期间有效的互动依赖于清晰的指示、合适的界面和结构化的文档。这涉及描述模型、现有的安全措施、测试接口和记录结果的指南。
- 数据综合与评估:活动结束后,评估数据以确定示例是否符合现有政策或需要新的行为修改。评估的数据随后为未来的更新提供可重复的评估依据。
最近应用这种方法的一个例子是为OpenAI的o1系列模型准备公共使用——测试它们对潜在误用的抵抗力,并评估它们在现实攻击计划、自然科学和AI研究等各个领域的应用。
自动化红队
自动化红队旨在识别AI可能失败的实例,特别是在安全相关问题方面。这种方法在规模上表现出色,能够快速生成大量潜在错误的示例。然而,传统的自动化方法在产生多样化、成功的攻击策略方面一直面临挑战。
OpenAI的研究介绍了“通过自动生成奖励和多步骤强化学习实现多样化和有效的红队,”一种鼓励攻击策略多样性同时保持有效性的方法。
这种方法涉及使用AI生成不同的场景,例如非法建议,并训练红队模型对这些场景进行批判性评估。该过程奖励多样性和有效性,促进更为多样和全面的安全评估。
尽管有其好处,红队仍然存在局限性。它捕捉到的风险是在特定时间点,这些风险可能会随着AI模型的发展而演变。此外,红队过程可能无意中创造信息危害,可能会提醒恶意行为者注意尚未广为人知的脆弱性。管理这些风险需要严格的协议和负责任的披露。
虽然红队在风险发现和评估中继续发挥关键作用,OpenAI承认有必要纳入更广泛的公众视角,以确保AI的理想行为和政策与社会价值观和期望相一致。
想了解更多行业领袖关于AI和大数据的内容吗? 请查看AI & 大数据博览会,该活动将在阿姆斯特丹、加利福尼亚和伦敦举行。该综合活动与其他领先活动共同举办,包括智能自动化会议、区块链博览会、数字化转型周和网络安全与云博览会。
探索由TechForge提供的其他即将举行的企业技术活动和网络研讨会这里。