微软披露了一种名为“Skeleton Key”的新型AI越狱攻击,可以绕过多个生成式AI模型中的负责任AI防护措施。这种技术能够破坏AI系统中内置的大多数安全措施,凸显了AI堆栈各层面都需要强大的安全措施。
Skeleton Key越狱采用多轮策略,使AI模型忽略其内置的安全保护措施。一旦成功,该模型将无法区分恶意或未经授权的请求和合法请求,从而使攻击者完全控制AI的输出。
微软的研究团队成功地在几个知名的AI模型上测试了Skeleton Key技术,包括Meta的Llama3-70b-instruct、Google的Gemini Pro、OpenAI的GPT-3.5 Turbo和GPT-4、Mistral Large、Anthropic的Claude 3 Opus以及Cohere Commander R Plus。
所有受影响的模型都完全遵守了各种风险类别的请求,包括爆炸物、生物武器、政治内容、自残、种族主义、毒品、性暴力和暴力行为。
该攻击通过指示模型增加其行为准则来实现,使其在提供信息或内容的任何请求时作出回应,并在输出可能被认为是冒犯、有害或非法的情况下提供警告。这种方法被称为“明确:强制指令遵循”,在多个AI系统中证明了其有效性。
微软解释说:“通过绕过安全措施,Skeleton Key允许用户导致模型产生通常被禁止的行为,这些行为可能从生成有害内容到覆盖其通常的决策规则。”
为了应对这一发现,微软在其AI产品中实施了几项保护措施,包括Copilot AI助手。
微软表示,它还通过负责任的披露程序与其他AI提供商分享了其发现,并通过Prompt Shields更新了其Azure AI托管模型,以检测和阻止这种类型的攻击。
为了减轻与Skeleton Key和类似的越狱技术相关的风险,微软建议AI系统设计者采用多层次的方法:
- 输入过滤,以检测和阻止潜在的有害或恶意输入
- 仔细的提示工程,用于加强适当的行为
- 输出过滤,以防止生成违反安全标准的内容
- 滥用监控系统,通过对抗性示例进行训练,以检测和减轻反复出现的问题内容或行为
微软还更新了其Python风险识别工具包PyRIT,以包括Skeleton Key,使开发人员和安全团队能够针对这种新威胁测试其AI系统。
Skeleton Key越狱技术的发现凸显了在各种应用中越来越普及的AI系统的安全挑战。
(图片由Matt Artz提供)
另请参阅:智库呼吁建立AI事故报告系统
想要从行业领导者那里了解更多关于人工智能和大数据的知识吗?请查看在阿姆斯特丹、加利福尼亚和伦敦举办的AI & Big Data Expo。这个全面的活动与其他领先的活动同时举办,包括智能自动化会议、BlockX、数字化转型周和网络安全与云计算博览会。
探索由TechForge提供支持的其他即将举行的企业技术活动和网络研讨会这里。