阿里巴巴 Marco-o1:提升 LLM 推理能力

阿里巴巴宣布推出Marco-o1,这是一种大型语言模型(LLM),旨在解决常规和开放式问题解决任务。

来自阿里巴巴MarcoPolo团队的Marco-o1,代表了人工智能在处理复杂推理挑战方面的又一步进展,特别是在数学、物理、编码以及标准可能缺失的领域。

Marco-o1在OpenAI的推理进展基础上,结合了多种先进技术,包括链式思维(CoT)微调、蒙特卡洛树搜索(MCTS)和新颖的反思机制。这些组件协同工作,以增强模型在各个领域的解决问题能力。

开发团队实施了一种全面的微调策略,使用多个数据集,包括经过筛选的Open-O1 CoT数据集、合成的Marco-o1 CoT数据集和专门的Marco指令数据集。总的来说,训练语料库包含超过60,000个精心策划的样本。

该模型在多语言应用中表现出特别令人印象深刻的结果。在测试中,Marco-o1在英语MGSM数据集上实现了6.17%的显著准确性提升,在其中文对应数据集上提升了5.60%。该模型在翻译任务中表现出特别的优势,尤其是在处理口语表达和文化细微差别时。

该模型最具创新性的特征之一是其在MCTS框架内实施的不同动作粒度。这种方法使模型能够在不同的细节层次上探索推理路径,从广泛的步骤到更精确的32或64个标记的“微步骤”。团队还引入了一种反思机制,促使模型自我评估和重新考虑其推理,从而在复杂问题解决场景中提高准确性。

MCTS的集成被证明特别有效,所有增强MCTS的模型版本都显示出相对于基础Marco-o1-CoT版本的显著改进。团队对不同动作粒度的实验揭示了有趣的模式,尽管他们指出,确定最佳策略需要进一步研究和更精确的奖励模型。

最新的Marco-o1 LLM模型与MCTS集成的基准比较,和以前的AI模型及其变体。
(来源:MarcoPolo团队,AI商业,阿里巴巴国际数字商务)

开发团队对模型当前的局限性保持透明,承认虽然Marco-o1展现出强大的推理特性,但仍未达到完全实现的“o1”模型。他们强调,这一发布代表了持续改进的承诺,而不是一个完成的产品。

展望未来,阿里巴巴团队宣布计划引入奖励模型,包括结果奖励建模(ORM)和过程奖励建模(PRM),以增强Marco-o1的决策能力。他们还在探索强化学习技术,以进一步完善模型的解决问题能力。

Marco-o1模型及相关数据集已通过阿里巴巴的GitHub仓库向研究社区开放,附带全面的文档和实施指南。发布内容包括安装说明和示例脚本,适用于直接模型使用和通过FastAPI进行部署。

(照片由 Alina Grubnyak 提供)

另见:新的AI训练技术旨在克服当前挑战

想了解更多来自行业领袖的AI和大数据信息吗? 请查看 AI & 大数据博览会,该活动将在阿姆斯特丹、加利福尼亚和伦敦举行。该综合活动与其他领先活动共同举办,包括智能自动化会议区块链博览会数字化转型周网络安全与云博览会

探索由TechForge提供的其他即将举行的企业技术活动和网络研讨会这里

标签: , , , , , , ,