Anthropic 宣布对其人工智能产品组合进行了升级,包括增强版的 Claude 3.5 Sonnet 模型和新推出的 Claude 3.5 Haiku,以及一个处于公开测试阶段的“计算机控制”功能。
升级后的 Claude 3.5 Sonnet 在所有指标上表现出显著的改进,尤其是在编码能力方面取得了显著进展。该模型在 SWE-bench Verified 基准测试中取得了令人印象深刻的 49.0%,超越了所有公开可用的模型,包括 OpenAI 的产品和专业编码系统。
在一项开创性的发展中,Anthropic 引入了计算机使用功能,使 Claude 能够像人类一样与计算机互动:查看屏幕、控制光标、点击和输入。这一功能目前处于公开测试阶段,使 Claude 3.5 Sonnet 成为首个提供此类功能的前沿人工智能模型。
几家主要科技公司已经开始实施这些新功能。
“升级后的 Claude 3.5 Sonnet 代表了人工智能编码的重大飞跃,”GitLab 报告称,指出在使用案例中推理能力提高了多达 10%,且没有额外的延迟。
新推出的 Claude 3.5 Haiku 模型预计将在本月晚些时候发布,其性能与之前的 Claude 3 Opus 相当,同时保持了成本效益和速度。它在 SWE-bench Verified 中取得了 40.6%,超越了许多竞争模型,包括原始的 Claude 3.5 Sonnet 和 GPT-4o。
关于计算机控制能力,Anthropic 采取了谨慎的态度,承认当前的局限性,同时强调潜力。在评估计算机界面导航的 OSWorld 基准测试中,Claude 3.5 Sonnet 在仅截图测试中取得了 14.9%,显著超越了下一个最佳系统的 7.8%。
这些发展经历了严格的 安全评估,并与美国和英国人工智能安全机构合作进行了预部署测试。Anthropic 坚持认为,ASL-2 标准,如其负责任扩展政策中所述,仍然适用于这些模型。
(图片来源: Anthropic)
另见: IBM 发布 Granite 3.0 AI 模型,承诺开源
想了解更多行业领袖关于人工智能和大数据的内容吗? 请查看 AI & 大数据博览会,该活动将在阿姆斯特丹、加利福尼亚和伦敦举行。该综合活动与其他领先活动共同举办,包括智能自动化会议、区块链博览会、数字转型周和网络安全与云博览会。
探索由 TechForge 提供的其他即将举行的企业技术活动和网络研讨会这里。