在过去的三个月中,OpenAI已经破坏了五个企图利用该公司的模型进行网络欺骗活动的隐秘影响行动(IO)。截至2024年5月,由于OpenAI的服务,这些活动并没有显示出受众参与度或影响力的显著增加。
OpenAI声称,其致力于以安全为重点设计AI模型的承诺经常挫败了威胁行为者生成所需内容的企图。此外,该公司表示,AI工具提高了OpenAI调查的效率。
分发平台和开源社区的详细威胁报告对于打击IO起到了重要作用。OpenAI正在分享这些发现,以促进更广泛的利益相关者社区之间的信息共享和最佳实践。
破坏隐秘IO
在过去的三个月中,OpenAI使用其模型破坏了几个IO行动,包括生成简短评论、创建虚假社交媒体个人资料、进行开源研究、调试简单代码和翻译文本等各种任务。
具体破坏的行动包括:
– Bad Grammar: 一次来自俄罗斯的以前未报告的行动,针对乌克兰、摩尔多瓦、波罗的海国家和美国。该组织使用OpenAI的模型来调试运行Telegram机器人的代码,并在Telegram上发布俄语和英语的政治评论。
– Doppelganger: 另一次俄罗斯行动,在X和9GAG等平台上生成多种语言的评论,翻译和编辑文章,生成标题,并将新闻文章转化为Facebook帖子。
– Spamouflage: 一个中国网络使用OpenAI的模型进行公共社交媒体活动研究,在多种语言中生成文本,并调试管理数据库和网站的代码。
– 国际虚拟媒体联盟(IUVM): 一个伊朗行动,生成和翻译长篇文章、标题和网站标签,发布在一个链接网站上。
– Zero Zeno: 以色列的一家商业公司,进行生成文章和评论的行动,发布在包括Instagram、Facebook、X和关联网站在内的多个平台上。
这些行动发布的内容涉及俄罗斯入侵乌克兰、加沙冲突、印度选举、欧洲和美国政治以及对中国政府的批评等各种问题。
尽管这些努力,但由于OpenAI的模型,这些行动中没有一个显示出显著的受众参与度。使用布鲁金斯破局规模(Breakout Scale)评估隐秘IO的影响,这五个行动中没有一个得分超过2,表明在多个平台上有活动,但没有进入真实社区。
攻击者趋势
对这些影响行动的调查揭示了几个趋势:
– 内容生成:威胁行为者使用OpenAI的服务生成大量文本,比人工操作员能够实现的语言错误更少。
– 新旧混合:AI与传统格式结合使用,例如手动编写的文本或复制的表情包。
– 伪造参与度:一些网络生成对自己的帖子的回复,以营造参与度的外观,尽管没有成功吸引真实的参与度。
– 提高生产力:威胁行为者使用AI提高生产力,总结社交媒体帖子和调试代码。
防御趋势
OpenAI的调查受益于行业共享和开源研究。防御措施包括:
– 防御性设计:OpenAI的安全系统对威胁行为者施加了阻力,经常阻止他们生成所需内容。
– AI增强调查:AI驱动的工具提高了检测和分析的效率,将调查时间从几周或几个月缩短到几天。
– 分发的重要性:与传统内容一样,IO内容必须有效地分发才能触达受众。尽管他们的努力,没有一个被破坏的行动取得了显著的参与度。
– 行业共享的重要性:与行业同行分享威胁指标增加了OpenAI破坏行动的影响力。该公司受益于广泛研究社区多年的开源分析。
– 人的因素:尽管使用了AI,威胁行为者容易出现人为错误,例如在他们的社交媒体和网站上发布OpenAI模型的拒绝消息。
OpenAI表示,他们致力于开发安全和负责任的AI。这包括以安全为重点设计模型,并积极干预恶意使用。
尽管承认检测和破坏像隐秘影响行动这样的多平台滥用是具有挑战性的,但OpenAI声称他们致力于减轻这些危险。
(照片由Chris Yang提供)
查看更多: EU launches office to implement AI Act and foster innovation