微软宣布推出Phi-3系列开放式小型语言模型(SLM),称其为目前可用的最具能力和成本效益的模型。微软研究人员开发的创新训练方法使Phi-3模型在语言、编码和数学基准测试中超越了更大的模型。
微软的生成AI产品经理Sonali Yadav表示:“我们将看到的不是从大型模型向小型模型的转变,而是从单一模型类别向模型组合的转变,客户可以根据自己的场景选择最佳模型。”
首个Phi-3模型Phi-3-mini拥有38亿个参数,现已在Azure AI模型目录、Hugging Face、Ollama和NVIDIA NIM微服务中公开提供。尽管体积较小,Phi-3-mini的性能超过了两倍于其大小的模型。其他Phi-3模型,如Phi-3-small(70亿参数)和Phi-3-medium(140亿参数),将很快推出。
微软副总裁Luis Vargas表示:“有些客户可能只需要小型模型,有些客户需要大型模型,而许多客户则希望以各种方式结合使用两者。”
SLM的主要优势在于其较小的体积,可以在设备上部署,实现低延迟的AI体验,无需网络连接。潜在的用例包括智能传感器、摄像头、农业设备等。通过将数据保留在设备上,还可以提供隐私保护。
大型语言模型(LLM)在处理大规模数据集上的复杂推理方面表现出色,适用于通过理解科学文献中的相互作用来进行药物发现等应用。然而,SLM在简单的查询回答、摘要生成等方面提供了一种引人注目的替代方案。
Iris.ai的CTO兼联合创始人Victor Botev评论道:“微软正在开发更加精心策划的数据和专门训练的工具,而不是追求越来越大的模型。这样可以提高性能和推理能力,而无需使用具有数万亿参数的大型模型所需的大量计算成本。实现这一承诺将为寻找AI解决方案的企业拆除一个巨大的采用障碍。”
突破性的训练技术
使微软的SLM质量跃升的原因是一种受到睡前故事书启发的创新数据过滤和生成方法。
微软领导SLM研究的副总裁Sebastien Bubeck提出了一个问题:“为什么不寻找极高质量的数据,而不仅仅是训练原始网络数据?”
Ronen Eldan每晚与女儿的阅读习惯激发了生成“TinyStories”数据集的想法,该数据集由数百万个简单的叙述组成,这些叙述是通过用4岁孩子所知的单词组合来提示大型模型生成的。令人惊讶的是,训练在TinyStories上的1000万参数模型可以生成具有完美语法的流畅故事。
在此早期成功的基础上,团队采购了经过教育价值审核的高质量网络数据,创建了“CodeTextbook”数据集。这是通过人工和大型AI模型的多轮提示、生成和过滤来合成的。
Bubeck表示:“我们在生成这些合成数据时非常谨慎。我们不会接受我们生成的所有数据。”
高质量的训练数据带来了巨大的变革。“因为它是从类似教科书的材料中阅读……你使语言模型阅读和理解这些材料的任务变得更容易,”Bubeck解释道。
减轻AI安全风险
尽管数据筛选经过深思熟虑,微软强调在Phi-3发布中应用额外的安全措施,与其所有生成AI模型的标准流程相一致。
一篇博文中指出:“与所有生成AI模型发布一样,微软的产品和负责任的AI团队采用了多层次的方法来管理和减轻Phi-3模型开发中的风险。”
这包括进一步的训练示例以强化预期行为、通过红队测试识别漏洞以及为客户提供Azure AI工具,以构建在Phi-3之上的可信应用程序。
(照片由Tadas Sar提供)
另请参阅:微软与韩国科技巨头建立AI合作伙伴关系
想要从行业领导者那里了解更多关于人工智能和大数据的知识吗?请查看在阿姆斯特丹、加利福尼亚和伦敦举办的AI&Big Data Expo。这个综合性的活动与其他领先的活动同时举办,包括BlockX、Digital Transformation Week和Cyber Security&Cloud Expo。
探索由TechForge提供支持的其他即将举行的企业技术活动和网络研讨会here。