微软详细介绍了“Skeleton Key”人工智能越狱。

微软披露了一种名为“Skeleton Key”的新型AI越狱攻击，可以绕过多个生成式AI模型中的负责任AI防护措施。这种技术能够破坏AI系统中内置的大多数安全措施，凸显了AI堆栈各层面都需要强大的安全措施。

Skeleton Key越狱采用多轮策略，使AI模型忽略其内置的安全保护措施。一旦成功，该模型将无法区分恶意或未经授权的请求和合法请求，从而使攻击者完全控制AI的输出。

微软的研究团队成功地在几个知名的AI模型上测试了Skeleton Key技术，包括Meta的Llama3-70b-instruct、Google的Gemini Pro、OpenAI的GPT-3.5 Turbo和GPT-4、Mistral Large、Anthropic的Claude 3 Opus以及Cohere Commander R Plus。

所有受影响的模型都完全遵守了各种风险类别的请求，包括爆炸物、生物武器、政治内容、自残、种族主义、毒品、性暴力和暴力行为。

该攻击通过指示模型增加其行为准则来实现，使其在提供信息或内容的任何请求时作出回应，并在输出可能被认为是冒犯、有害或非法的情况下提供警告。这种方法被称为“明确：强制指令遵循”，在多个AI系统中证明了其有效性。

微软解释说：“通过绕过安全措施，Skeleton Key允许用户导致模型产生通常被禁止的行为，这些行为可能从生成有害内容到覆盖其通常的决策规则。”

为了应对这一发现，微软在其AI产品中实施了几项保护措施，包括Copilot AI助手。

微软表示，它还通过负责任的披露程序与其他AI提供商分享了其发现，并通过Prompt Shields更新了其Azure AI托管模型，以检测和阻止这种类型的攻击。

为了减轻与Skeleton Key和类似的越狱技术相关的风险，微软建议AI系统设计者采用多层次的方法：

输入过滤，以检测和阻止潜在的有害或恶意输入
仔细的提示工程，用于加强适当的行为
输出过滤，以防止生成违反安全标准的内容
滥用监控系统，通过对抗性示例进行训练，以检测和减轻反复出现的问题内容或行为

微软还更新了其Python风险识别工具包PyRIT，以包括Skeleton Key，使开发人员和安全团队能够针对这种新威胁测试其AI系统。

Skeleton Key越狱技术的发现凸显了在各种应用中越来越普及的AI系统的安全挑战。

（图片由Matt Artz提供）

另请参阅：智库呼吁建立AI事故报告系统

想要从行业领导者那里了解更多关于人工智能和大数据的知识吗？请查看在阿姆斯特丹、加利福尼亚和伦敦举办的AI & Big Data Expo。这个全面的活动与其他领先的活动同时举办，包括智能自动化会议、BlockX、数字化转型周和网络安全与云计算博览会。

探索由TechForge提供支持的其他即将举行的企业技术活动和网络研讨会这里。

标签： ai, 人工智能, 网络安全, 网络安全, 利用, 越狱, 微软, 提示工程, 安全, Skeleton Key, 漏洞

相关文章

一个AI数据集开辟了新的途径来检测龙卷风

谷歌在Pixel 9智能手机中推进移动人工智能

埃隆·马斯克的xAI获得60亿美元的资金，挑战OpenAI在人工智能竞赛中的地位。

‘帮助机器人独立练习技能，以适应不熟悉的环境’