DeepSeek 发布了其第一代 DeepSeek-R1 和 DeepSeek-R1-Zero 模型,旨在解决复杂的推理任务。
DeepSeek-R1-Zero 完全通过大规模强化学习(RL)进行训练,而不依赖于监督微调(SFT)作为前期步骤。根据 DeepSeek 的说法,这种方法自然地出现了“许多强大而有趣的推理行为”,包括自我验证、反思和生成广泛的思维链(CoT)。
“值得注意的是,[DeepSeek-R1-Zero] 是首次公开研究,验证了 LLM 的推理能力可以仅通过 RL 激励,而无需 SFT,”DeepSeek 的研究人员解释道。这个里程碑不仅强调了模型的创新基础,还为以 RL 为重点的推理 AI 进步铺平了道路。
然而,DeepSeek-R1-Zero 的能力也存在某些局限性。主要挑战包括“无尽的重复、可读性差和语言混合”,这些可能在实际应用中构成重大障碍。为了解决这些缺点,DeepSeek 开发了其旗舰模型:DeepSeek-R1。
介绍 DeepSeek-R1
DeepSeek-R1 在其前身的基础上,通过在 RL 训练之前引入冷启动数据,增强了模型的推理能力,并解决了 DeepSeek-R1-Zero 中提到的许多局限性。
值得注意的是,DeepSeek-R1 在数学、编码和一般推理任务上的表现与 OpenAI 备受赞誉的 o1 系统相当,巩固了其作为领先竞争者的地位。
DeepSeek 选择将 DeepSeek-R1-Zero 和 DeepSeek-R1 以及六个较小的蒸馏模型开源。在这些模型中,DeepSeek-R1-Distill-Qwen-32B 展现了卓越的结果,甚至在多个基准测试中超越了 OpenAI 的 o1-mini。
- MATH-500(Pass@1):DeepSeek-R1 达到 97.3%,超越 OpenAI(96.4%)和其他主要竞争对手。
- LiveCodeBench(Pass@1-COT):蒸馏版本 DeepSeek-R1-Distill-Qwen-32B 得分 57.2%,在较小模型中表现突出。
- AIME 2024(Pass@1):DeepSeek-R1 达到 79.8%,在数学问题解决中设定了令人印象深刻的标准。
为更广泛的行业提供的管道
DeepSeek 分享了其严格的推理模型开发管道的见解,该管道结合了监督微调和强化学习。
根据该公司的说法,该过程包括两个 SFT 阶段,以建立基础的推理和非推理能力,以及两个 RL 阶段,旨在发现高级推理模式并将这些能力与人类偏好对齐。
“我们相信,这一管道将通过创造更好的模型来惠及行业,”DeepSeek 表示,暗示他们的方法有潜力激励 AI 领域未来的进步。
他们以 RL 为重点的方法的一个突出成就是 DeepSeek-R1-Zero 能够在没有先前人类指导的情况下执行复杂的推理模式——这是开源 AI 研究社区的首次。
蒸馏的重要性
DeepSeek 的研究人员还强调了蒸馏的重要性——将推理能力从较大模型转移到较小、更高效模型的过程,这一策略即使在较小配置中也解锁了性能提升。
DeepSeek-R1 的较小蒸馏版本——如 1.5B、7B 和 14B 版本——能够在小众应用中独当一面。这些蒸馏模型的表现超越了通过 RL 训练获得的同类模型的结果。
🔥 奖励:开源蒸馏模型!
🔬 从 DeepSeek-R1 蒸馏而来,6 个小模型完全开源
📏 32B 和 70B 模型与 OpenAI-o1-mini 相当
🤝 赋能开源社区🌍 推动 **开放 AI** 的边界!
🐋 2/n pic.twitter.com/tfXLM2xtZZ
— DeepSeek (@deepseek_ai) 2025年1月20日
对于研究人员,这些蒸馏模型的配置范围从 15 亿到 70 亿参数,支持 Qwen2.5 和 Llama3 架构。这种灵活性使其能够在从编码到自然语言理解的广泛任务中灵活使用。
DeepSeek 已为其代码库和权重采用 MIT 许可证,扩展了商业使用和下游修改的权限。衍生作品,例如使用 DeepSeek-R1 训练其他大型语言模型(LLMs),是被允许的。然而,特定蒸馏模型的用户应确保遵守原始基础模型的许可证,例如 Apache 2.0 和 Llama3 许可证。
(照片由 Prateek Katyal 提供)
想了解更多行业领袖关于 AI 和大数据的见解吗? 请查看 AI & 大数据博览会,该活动将在阿姆斯特丹、加利福尼亚和伦敦举行。该综合活动与其他领先活动共同举办,包括智能自动化会议、区块链博览会、数字化转型周和网络安全与云博览会。
探索由 TechForge 提供的其他即将举行的企业技术活动和网络研讨会这里。