如果只有一家公司建立和控制模型(更不用说其中的数据了),人工智能的影响将永远不会公平。不幸的是,如今的人工智能模型由数十亿个参数组成,必须经过训练和调整,以最大化每个用例的性能,这使得大多数人和公司无法接触到最强大的人工智能模型。
MosaicML的使命是使这些模型更易于使用。该公司由Jonathan Frankle博士和麻省理工学院副教授Michael Carbin共同创立,开发了一个平台,让用户可以使用自己的数据训练、改进和监控开源模型。该公司还使用了来自Nvidia的图形处理单元(GPU)构建了自己的开源模型。
这种方法使得深度学习在MosaicML刚开始时成为一个更多组织可以接触的领域,随着Chat GPT-3.5发布后,生成式人工智能和大型语言模型(LLMs)引起了极大的关注。它还使MosaicML成为数据管理公司的强大补充工具,这些公司致力于帮助组织利用数据而不将其提供给人工智能公司。
去年,这种理念导致MosaicML被Databricks收购,Databricks是一家全球数据存储、分析和人工智能公司,与世界上一些最大的组织合作。自收购以来,两家公司合并发布了迄今为止性能最高的开源通用LLMs之一,名为DBRX。该模型在阅读理解、常识问题和逻辑谜题等任务中树立了新的基准。
此后,DBRX因为是最快的开源LLMs之一而声名鹊起,并且在大型企业中被证明特别有用。
然而,Frankle表示,DBRX的重要性不仅在于模型本身,而是因为它是使用Databricks工具构建的,这意味着该公司的任何客户都可以通过自己的模型实现类似的性能,从而加速生成式人工智能的影响。
“老实说,看到社区在这方面做出了很酷的事情,这让我感到兴奋,”Frankle说。“对我来说作为一名科学家,这是最好的部分。重要的不是模型本身,而是社区在其基础上所做的所有令人惊奇的事情。这就是魔力所在。”
使算法更高效
Frankle在普林斯顿大学获得计算机科学学士和硕士学位,2016年来到麻省理工学院攻读博士学位。在麻省理工学院的早期,他不确定自己想研究哪个领域。他最终的选择改变了他的人生轨迹。
最终,Frankle决定专注于一种称为深度学习的人工智能形式。当时,深度学习和人工智能并没有像今天一样引起广泛的兴奋。深度学习是一个几十年前的研究领域,尚未取得太多成果。
“我不认为当时有人预料到深度学习会以这种方式爆炸性增长,”Frankle说。“知情人士认为这是一个非常有趣的领域,有很多未解决的问题,但在那个时候并没有使用像大型语言模型(LLM)和生成式人工智能这样的术语。那时还只是初步阶段。”
随着谷歌研究人员在2017年发布了一篇如今臭名昭著的论文,其中展示了一种被称为Transformer的新型深度学习架构在语言翻译方面的惊人效果,并在包括内容生成在内的许多其他应用中显示出潜力。
2020年,Mosaic的联合创始人兼技术高管Naveen Rao突然给Frankle和Carbin发了一封电子邮件。Rao读了两人合著的一篇论文,其中研究人员展示了一种在不牺牲性能的情况下缩小深度学习模型的方法。Rao向两人提出了创办一家公司的建议。他们还加入了曾与Rao一起在一家被Intel收购的AI初创公司工作过的Hanlin Tang。
创始人们开始研究不同的技术,以加快AI模型的训练,最终结合了其中几种技术,展示了他们可以将模型的图像分类训练速度提高四倍。
“诀窍就是没有诀窍,”Frankle说。“为了找到答案,我们必须对模型的训练进行17次不同的更改。只是一点点的改变,但结果足以获得令人难以置信的加速。这就是Mosaic的故事。”
该团队展示了他们的技术可以使模型更高效,并于2023年发布了一个开源的大型语言模型,以及一个开源的方法库。他们还开发了可视化工具,让开发人员可以绘制出不同的实验选项,用于训练和运行模型。
麻省理工学院的E14基金参与了Mosaic的A轮融资,Frankle表示,E14的团队在早期提供了有益的指导。Mosaic的进展使一类新的公司能够训练自己的生成式人工智能模型。
“Mosaic的使命涉及到民主化和开源,”Frankle说。“这一点一直非常贴近我的心。当我还是一名博士生时,因为不在机器学习实验室,我没有GPU,而我的朋友们都有GPU。我仍然有这种感觉。为什么我们不能都参与其中?为什么我们不能都做这些事情并进行科学研究呢?”
开源创新
Databricks也一直致力于让其客户访问人工智能模型。该公司于2023年以13亿美元的价格收购了MosaicML。
“在Databricks,我们看到了一个与我们一样的学术创始团队,”Frankle说。“我们还看到了一支了解技术的科学家团队。Databricks拥有数据,我们拥有机器学习。两者缺一不可,相辅相成。这只是一个非常好的匹配。”
今年3月,Databricks发布了DBRX,为开源社区和构建自己的LLMs的企业提供了之前仅限于封闭模型的功能。
“DBRX展示的是,你可以使用Databricks构建世界上最好的开源LLM,”Frankle说。“如果你是一家企业,今天的可能性是无限的。”
Frankle表示,Databricks团队已经在各种任务中使用DBRX,并取得了良好的效果。
“它已经很棒了,稍加调整就比封闭模型更好,”他说。“你不会在所有方面都比GPT更好。这不是它的工作方式。但没有人想要解决所有问题。每个人都想解决一个问题。我们可以定制这个模型,使其在特定场景中表现出色。”
随着Databricks继续推动人工智能的前沿,竞争对手继续大量投资人工智能,Frankle希望该行业能够将开源视为最佳发展路径。
“我相信科学,我相信进步,我很高兴我们作为一个领域正在进行如此令人兴奋的科学研究,”Frankle说。“我也相信开放性,我希望其他人也像我们一样拥抱开放性。我们之所以能够取得今天的成就,就是通过良好的科学和良好的分享。”