理解语言模型的视觉知识

你可能听说过一张图片胜过千言万语,但是如果一个大型语言模型(LLM)从未见过图片,它能理解图片吗?

事实证明,纯文本训练的语言模型对视觉世界有着很好的理解。它们可以编写图像渲染代码,生成复杂的场景和有趣的物体组合,即使这些知识没有被正确使用,LLM也可以改进它们的图像。麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员在提示语言模型自我纠正不同图像的代码时观察到了这一点,系统在每次查询中都改进了它们简单的剪贴画绘图。

这些语言模型的视觉知识是通过互联网上对形状和颜色等概念的描述获得的,无论是通过语言还是代码。当给出“在丛林中画一只鹦鹉”的指示时,用户会让LLM考虑之前阅读的描述。为了评估LLM的视觉知识有多少,CSAIL团队为LLM构建了一个“视觉检查”:他们使用他们的“视觉能力数据集”测试了模型绘制、识别和自我纠正这些概念的能力。研究人员收集了这些插图,并训练了一个计算机视觉系统,可以识别真实照片中的内容。

“我们实际上是在没有直接使用任何视觉数据的情况下训练了一个视觉系统,”麻省理工学院电气工程和计算机科学(EECS)博士后和CSAIL的合著者Tamar Rott Shaham说道。“我们的团队要求语言模型编写图像渲染代码为我们生成数据,然后训练视觉系统评估自然图像。我们受到了这样一个问题的启发,即如何通过其他媒介(如文本)来表达视觉概念。为了表达他们的视觉知识,LLM可以使用代码作为文本和视觉之间的共同基础。”

为了构建这个数据集,研究人员首先查询模型为不同的形状、物体和场景生成代码。然后,他们编译该代码以渲染简单的数字插图,如一排自行车,显示LLM能够很好地理解空间关系,将这些两轮车绘制成水平排列。作为另一个例子,模型生成了一个车形蛋糕,结合了两个随机概念。语言模型还产生了一个发光的灯泡,表明它具备创建视觉效果的能力。

“我们的工作表明,当你查询一个LLM(没有多模态预训练)来创建一张图片时,它知道的远比看起来多,”合著者、EECS博士生和CSAIL成员Pratyusha Sharma说道。“假设你让它画一把椅子。模型对这个家具的其他方面也有了解,可能不会立即呈现出来,所以用户可以查询模型,通过每次迭代改进它所生成的视觉效果。令人惊讶的是,模型可以通过改进渲染代码来逐步丰富绘图。”

研究人员收集了这些插图,然后用它们训练了一个可以识别真实照片中物体的计算机视觉系统(尽管从未见过真实照片)。在这个合成的、由文本生成的数据作为唯一参考点的情况下,该系统的性能超过了使用真实照片训练的其他程序生成的图像数据集。

CSAIL团队认为,将LLM的隐藏视觉知识与扩散模型等其他人工智能工具的艺术能力结合起来也可能是有益的。Midjourney等系统有时缺乏调整图像细节的技巧,使得它们难以处理减少车辆数量或将一个物体放在另一个物体后面等请求。如果LLM事先为扩散模型勾勒出所请求的变化,那么结果可能更令人满意。

正如Rott Shaham和Sharma所承认的,讽刺的是,LLM有时无法识别它们可以绘制的相同概念。当模型错误地识别数据集中的图像人工再现时,这一点变得很明显。这种对视觉世界的多样化表达很可能引发了语言模型的误解。

虽然模型难以理解这些抽象描绘,但它们展示了每次绘制相同概念时的创造力。当研究人员多次查询LLM绘制草莓和游乐场等概念时,它们以不同角度、不同形状和颜色的图片进行绘制,暗示模型可能对视觉概念有实际的心理形象(而不仅仅是重复之前看到的例子)。

CSAIL团队认为,这个过程可以作为评估生成式AI模型训练计算机视觉系统的基准。此外,研究人员还计划扩大他们对语言模型挑战的任务。至于他们最近的研究,麻省理工学院团队指出,他们无法访问所使用的LLM的训练集,这使得进一步研究其视觉知识的起源具有挑战性。未来,他们打算让LLM直接与视觉模型合作,进一步训练一个更好的视觉模型。

Sharma和Rott Shaham在论文中与前CSAIL成员Stephanie Fu ’22,MNG ’23以及EECS博士生Manel Baradad,Adrián Rodríguez-Muñoz ’22和Shivam Duggal一起合作,他们都是CSAIL成员;还有麻省理工学院副教授Phillip Isola和教授Antonio Torralba。他们的工作得到了麻省理工学院-IBM Watson AI实验室、LaCaixa奖学金、Zuckerman STEM领导力计划和Viterbi奖学金的部分支持。他们将在本周的IEEE/CVF计算机视觉与模式识别会议上展示他们的论文。