阿里巴巴对DeepSeek的回应是Qwen 2.5-Max,这是该公司最新的专家混合(MoE)大规模模型。
Qwen 2.5-Max在超过20万亿个标记上进行了预训练,并通过监督微调(SFT)和人类反馈强化学习(RLHF)等前沿技术进行了微调。
现在通过阿里云提供API,并且可以通过Qwen Chat进行探索,这家中国科技巨头邀请开发者和研究人员亲自体验其突破。
超越同行
在将Qwen 2.5-Max的性能与一些最著名的AI模型在各种基准测试中的表现进行比较时,结果令人鼓舞。
评估包括了流行的指标,如大学级问题解决的MMLU-Pro、编码专业的LiveCodeBench、整体能力的LiveBench,以及评估模型与人类偏好的Arena-Hard。
根据阿里巴巴的说法,“Qwen 2.5-Max在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等基准测试中超越了DeepSeek V3,同时在其他评估中也表现出竞争力,包括MMLU-Pro。”
该指令模型——旨在用于聊天和编码等下游任务——直接与领先模型如GPT-4o、Claude-3.5-Sonnet和DeepSeek V3竞争。在这些模型中,Qwen 2.5-Max在多个关键领域超越了竞争对手。
基础模型的比较也产生了令人鼓舞的结果。尽管由于访问限制,像GPT-4o和Claude-3.5-Sonnet这样的专有模型仍然无法接触,但Qwen 2.5-Max与领先的公共选项如DeepSeek V3、Llama-3.1-405B(最大的开放权重稠密模型)和Qwen2.5-72B进行了评估。再次,阿里巴巴的新秀在各个方面表现出色。
“我们的基础模型在大多数基准测试中表现出显著优势,”阿里巴巴表示,“我们对后续训练技术的进步感到乐观,这将使下一版本的Qwen 2.5-Max达到新的高度。”
让Qwen 2.5-Max更易获取
为了使该模型更易于全球社区访问,阿里巴巴已将Qwen 2.5-Max与其Qwen Chat平台集成,用户可以在各种能力下直接与模型互动——无论是探索其搜索能力还是测试其对复杂查询的理解。
对于开发者,Qwen 2.5-Max API现在可以通过阿里云以“qwen-max-2025-01-25”的模型名称提供。感兴趣的用户可以通过注册阿里云账户、激活模型工作室服务并生成API密钥来开始使用。
该API甚至与OpenAI的生态系统兼容,使现有项目和工作流程的集成变得简单。这种兼容性降低了那些渴望测试其应用程序与模型能力的用户的门槛。
阿里巴巴通过Qwen 2.5-Max发出了强烈的意图声明。该公司对扩展AI模型的持续承诺不仅仅是提高性能基准,还在于增强这些系统的基本思维和推理能力。
“数据和模型规模的扩展不仅展示了模型智能的进步,还反映了我们对开创性研究的坚定承诺,”阿里巴巴指出。
展望未来,团队旨在推动强化学习的边界,以培养更先进的推理能力。他们表示,这可能使他们的模型不仅能够匹配,还能超越人类在解决复杂问题方面的智能。
这对行业的影响可能是深远的。随着扩展方法的改进和Qwen模型的突破,我们可能会在全球AI驱动的领域看到进一步的涟漪,正如我们在最近几周所见。
(照片由 Maico Amorim 提供)
想了解更多来自行业领袖的AI和大数据信息吗? 请查看AI & Big Data Expo,该活动将在阿姆斯特丹、加利福尼亚和伦敦举行。该综合活动与其他领先活动共同举办,包括智能自动化会议、BlockX、数字化转型周和网络安全与云博览会。
在这里探索其他即将举行的企业技术活动和网络研讨会,均由TechForge提供支持。