Mistral AI 宣布推出 NeMo,这是与 NVIDIA 合作创建的 12B 模型。这个新模型具有高达 128,000 个标记的上下文窗口,并声称在推理、世界知识和编码准确性方面在其大小类别中表现出色。
Mistral AI 和 NVIDIA 的合作不仅推动了性能的边界,还优先考虑了易用性。Mistral NeMo 旨在无缝替代当前使用 Mistral 7B 的系统,得益于其对标准架构的依赖。
为了鼓励采用和进一步研究,Mistral AI 已根据 Apache 2.0 许可证提供了预训练基础和指令调优检查点。这种开源方法可能会吸引研究人员和企业,从而加速该模型在各种应用中的集成。
Mistral NeMo 的一个关键特性是在训练过程中对量化的意识,这使得 FP8 推理得以实现而不影响性能。这一能力对于希望高效部署大型语言模型的组织来说可能至关重要。
Mistral AI 提供了 Mistral NeMo 基础模型与两个最近的开源预训练模型:Gemma 2 9B 和 Llama 3 8B 之间的性能比较。
“该模型旨在用于全球多语言应用。它经过功能调用的训练,具有较大的上下文窗口,并在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语等语言中表现特别强劲,”Mistral AI 解释道。
“这是将前沿 AI 模型带到每个人手中的新一步,涵盖所有构成人类文化的语言。”
Mistral NeMo 引入了 Tekken,这是一种基于 Tiktoken 的新标记器。Tekken 在超过 100 种语言上进行训练,相比于之前 Mistral 模型中使用的 SentencePiece 标记器,提供了更好的自然语言文本和源代码的压缩效率。公司报告称,Tekken 在压缩源代码和几种主要语言方面的效率提高了约 30%,对于韩语和阿拉伯语的提升更为显著。
Mistral AI 还声称,Tekken 在文本压缩方面优于 Llama 3 标记器,适用于约 85% 的所有语言,这可能使 Mistral NeMo 在多语言应用中占据优势。
该模型的权重现在可以在 HuggingFace 上获取,包括 基础 和 指令 版本。开发人员可以使用 mistral-inference 工具开始实验 Mistral NeMo,并通过 mistral-finetune 进行调整。对于使用 Mistral 平台的用户,该模型以 open-mistral-nemo 的名称提供。
为了致敬与 NVIDIA 的合作,Mistral NeMo 还作为 NVIDIA NIM 推理微服务进行打包,通过 ai.nvidia.com 提供。这一集成可能会简化已经投资于 NVIDIA AI 生态系统的组织的部署。
Mistral NeMo 的发布代表了在先进 AI 模型民主化方面的重要进展。通过结合高性能、多语言能力和开源可用性,Mistral AI 和 NVIDIA 正在将该模型定位为广泛应用于各个行业和研究领域的多功能工具。
(照片由 David Clode 提供)
想了解更多来自行业领袖的 AI 和大数据信息吗? 请查看 AI & 大数据博览会,该活动将在阿姆斯特丹、加利福尼亚和伦敦举行。该综合活动与其他领先活动共同举办,包括 智能自动化会议、BlockX、数字化转型周 和 网络安全与云博览会。
探索由 TechForge 提供的其他即将举行的企业技术活动和网络研讨会 这里。