'OpenAI通过新的红队方法增强AI安全性'

OpenAI的安全保障过程中的一个关键部分是“红队”——一种结构化的方法，利用人类和AI参与者来探索新系统中的潜在风险和脆弱性。

历史上，OpenAI主要通过手动测试进行红队工作，这涉及到个人寻找弱点。这在2022年初测试他们的DALL·E 2图像生成模型时尤为明显，当时邀请了外部专家来识别潜在风险。从那时起，OpenAI扩展和完善了其方法，结合了自动化和混合方法，以进行更全面的风险评估。

“我们乐观地认为，我们可以利用更强大的AI来扩大模型错误的发现，”OpenAI表示。这种乐观源于自动化过程可以帮助评估模型并通过识别更大规模的模式和错误来训练它们变得更安全的想法。

在他们最新的推进中，OpenAI分享了两份关于红队的重要文件——一份白皮书详细说明了外部参与策略，另一份研究报告介绍了一种新的自动化红队方法。这些贡献旨在加强红队的过程和结果，最终导致更安全和更负责任的AI实施。

随着AI的不断发展，理解用户体验和识别滥用和误用等风险对研究人员和开发人员至关重要。红队提供了一种主动评估这些风险的方法，特别是当补充来自一系列独立外部专家的见解时。这种方法不仅有助于建立基准，还促进了安全评估的逐步提升。

OpenAI在其白皮书中分享了设计有效红队活动的四个基本步骤，“OpenAI对AI模型和系统的外部红队方法，”：

最近应用这种方法的一个例子是为OpenAI的o1系列模型准备公共使用——测试它们对潜在误用的抵抗力，并评估它们在现实攻击计划、自然科学和AI研究等各个领域的应用。

自动化红队旨在识别AI可能失败的实例，特别是在安全相关问题方面。这种方法在规模上表现出色，能够快速生成大量潜在错误的示例。然而，传统的自动化方法在产生多样化、成功的攻击策略方面一直面临挑战。

这种方法涉及使用AI生成不同的场景，例如非法建议，并训练红队模型对这些场景进行批判性评估。该过程奖励多样性和有效性，促进更为多样和全面的安全评估。

尽管有其好处，红队仍然存在局限性。它捕捉到的风险是在特定时间点，这些风险可能会随着AI模型的发展而演变。此外，红队过程可能无意中创造信息危害，可能会提醒恶意行为者注意尚未广为人知的脆弱性。管理这些风险需要严格的协议和负责任的披露。

虽然红队在风险发现和评估中继续发挥关键作用，OpenAI承认有必要纳入更广泛的公众视角，以确保AI的理想行为和政策与社会价值观和期望相一致。

想了解更多行业领袖关于AI和大数据的内容吗？ 请查看AI & 大数据博览会，该活动将在阿姆斯特丹、加利福尼亚和伦敦举行。该综合活动与其他领先活动共同举办，包括智能自动化会议、区块链博览会、数字化转型周和网络安全与云博览会。

探索由TechForge提供的其他即将举行的企业技术活动和网络研讨会这里。

相关文章