阿里巴巴云的Qwen团队推出了Qwen2-Math,这是一系列专门设计用于解决复杂数学问题的大型语言模型。
这些新模型基于现有的Qwen2基础,展现出在解决算术和数学挑战方面的卓越能力,超越了以前的行业领导者。
Qwen团队使用一个庞大而多样的数学特定语料库构建了Qwen2-Math。该语料库包含丰富的高质量资源,包括网络文本、书籍、代码、考试题目以及Qwen2自身生成的合成数据。
在英语和中文数学基准测试(包括GSM8K、Math、MMLU-STEM、CMATH和高考数学)上的严格评估显示了Qwen2-Math的卓越能力。值得注意的是,旗舰模型Qwen2-Math-72B-Instruct在各种数学任务中超越了GPT-4o和Claude 3.5等专有模型的表现。
“Qwen2-Math-Instruct在同等规模的模型中表现最佳,RM@8超越了Maj@8,特别是在1.5B和7B模型中,”Qwen团队指出。
这种卓越的表现归功于在开发过程中有效实施的数学特定奖励模型。
进一步展示其实力,Qwen2-Math在2024年美国邀请数学考试(AIME)和2023年美国数学竞赛(AMC)等具有挑战性的数学竞赛中表现出色。
为了确保模型的完整性并防止污染,Qwen团队在预训练和后训练阶段实施了强有力的去污染方法。这种严格的方法包括去除重复样本和识别与测试集的重叠,以保持模型的准确性和可靠性。
展望未来,Qwen团队计划将Qwen2-Math的能力扩展到英语以外,正在开发双语和多语种模型。这种对包容性的承诺旨在使先进的数学问题解决方案能够惠及全球受众。
“我们将继续增强模型解决复杂和具有挑战性的数学问题的能力,”Qwen团队确认。
您可以在Hugging Face上找到Qwen2模型 这里。
想了解更多来自行业领袖的AI和大数据信息吗? 请查看 AI & Big Data Expo,该活动将在阿姆斯特丹、加利福尼亚和伦敦举行。该综合活动与其他领先活动共同举办,包括智能自动化会议、BlockX、数字转型周和网络安全与云博览会。
探索由TechForge提供的其他即将举行的企业技术活动和网络研讨会这里。