Anthropic的Claude 3.5 Sonnet在大多数基准测试中击败了GPT-4o。

Anthropic推出了Claude 3.5 Sonnet,这是其中级模型,它在各种评估中表现优于竞争对手,甚至超过了Anthropic当前的顶级模型Claude 3 Opus。

Claude 3.5 Sonnet现在可以在Claude.ai和Claude iOS应用上免费使用,Claude Pro和Team计划订阅者的速率限制更高。它还可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI进行访问。该模型的定价为每百万输入令牌3美元,每百万输出令牌15美元,具有200K令牌的上下文窗口。

Anthropic声称Claude 3.5 Sonnet在研究生水平推理(GPQA)、本科水平知识(MMLU)和编码熟练度(HumanEval)方面“树立了新的行业基准”。该模型在理解细微差别、幽默和复杂指令方面表现出增强的能力,同时在以自然语调生成高质量内容方面表现出色。

Claude 3.5 Sonnet的运行速度是Claude 3 Opus的两倍,非常适合复杂任务,如上下文敏感的客户支持和多步骤工作流编排。在内部代理编码评估中,它解决了64%的问题,明显优于Claude 3 Opus的38%。

该模型还展示了改进的视觉能力,在标准视觉基准测试中超过了Claude 3 Opus。这种进步在需要视觉推理的任务中尤为明显,例如解释图表和图形。Claude 3.5 Sonnet可以准确地从不完美的图像中转录文本,这对于零售、物流和金融服务等行业非常有价值。

除了模型发布,Anthropic还在Claude.ai上推出了Artifacts,这是一个增强用户与AI互动的新功能。该功能允许用户实时查看、编辑和构建Claude生成的内容,创造更具协作性的工作环境。

尽管智能性能有了显著提升,但Claude 3.5 Sonnet仍保持了Anthropic对安全和隐私的承诺。该公司表示:“我们的模型经过严格测试,并经过训练以减少滥用。”

包括英国AI安全研究所(UK AISI)和Thorn的儿童安全专家在内的外部专家参与了对模型安全机制的测试和改进。

Anthropic强调了对用户隐私的承诺,表示:“除非用户明确允许我们这样做,否则我们不会使用用户提交的数据来训练我们的生成模型。到目前为止,我们没有使用任何客户或用户提交的数据来训练我们的生成模型。”

展望未来,Anthropic计划在今年晚些时候发布Claude 3.5 Haiku和Claude 3.5 Opus,以完成Claude 3.5模型系列。该公司还在开发新的模态和功能,以支持更多的业务用例,包括与企业应用程序的集成和用于更个性化用户体验的记忆功能。

(图片来源:Anthropic)

另请参阅:OpenAI联合创始人Ilya Sutskever的新创企业旨在实现“安全超级智能”

想要从行业领导者那里了解更多关于人工智能和大数据的知识吗?请查看在阿姆斯特丹、加利福尼亚和伦敦举办的AI&Big Data Expo。这个综合性的活动与其他领先的活动同时举办,包括智能自动化会议、BlockX、数字化转型周和网络安全与云计算博览会。

探索由TechForge提供支持的其他即将举行的企业技术活动和网络研讨会。