数据是新的土壤,在这片肥沃的新土地上,麻省理工学院的研究人员种植的不仅仅是像素。通过使用合成图像来训练机器学习模型,一组科学家最近超越了传统的“真实图像”训练方法所获得的结果。
这种方法的核心是一个名为StableRep的系统,它不仅仅使用任何合成图像;它通过像Stable Diffusion这样的超受欢迎的文本到图像模型生成它们。就像用文字创造世界一样。
那么StableRep的秘密在哪里呢?一种叫做“多正对比学习”的策略。
“我们教导模型通过上下文和变异来更多地了解高级概念,而不仅仅是提供数据,”麻省理工学院电气工程博士生、麻省理工学院计算机科学与人工智能实验室(CSAIL)的成员、该研究的首席研究员Lijie Fan说。“当多个图像,都是从相同的文本生成的,都被视为同一基础事物的描绘时,模型会更深入地研究图像背后的概念,比如物体,而不仅仅是它们的像素。”
这种方法将从相同文本提示生成的多个图像视为正对比对,提供额外的训练信息,不仅增加了多样性,还指示视觉系统哪些图像是相似的,哪些是不同的。值得注意的是,StableRep在广泛的数据集上超过了SimCLR和CLIP等基于真实图像训练的顶级模型的能力。
“虽然StableRep有助于缓解机器学习中数据获取的挑战,但它也为AI训练技术的新时代迈出了一大步。能够随时生成高质量、多样化的合成图像可以帮助减少繁琐的开销和资源,”Fan说。
数据收集的过程从来都不是一帆风顺的。在20世纪90年代,研究人员不得不手动拍摄照片来组装对象和人脸的数据集。在2000年代,人们在互联网上搜集数据。然而,与真实世界情景相比,这些未经筛选的原始数据往往存在差异,并反映了社会偏见,呈现了对现实的扭曲视角。通过人工干预来清理数据集的任务不仅昂贵,而且极具挑战性。不过,想象一下,如果这个艰巨的数据收集过程可以简化为像发布自然语言命令一样简单。
StableRep取得成功的一个关键因素是在生成模型中调整“引导尺度”,以确保合成图像的多样性和保真度之间的微妙平衡。当精细调整时,用于训练这些自监督模型的合成图像被发现比真实图像更有效。
更进一步的是,将语言监督添加到混合中,创建了一个增强版:StableRep+。当使用2000万个合成图像进行训练时,StableRep+不仅实现了更高的准确性,而且与使用5000万个真实图像进行训练的CLIP模型相比,显示出了显著的效率。
然而,前方的道路并非没有坑洼。研究人员坦率地指出了几个限制,包括当前图像生成速度缓慢、文本提示与生成图像之间的语义不匹配、潜在的偏见放大以及图像归属的复杂性,所有这些都是未来发展必须解决的问题。另一个问题是StableRep需要先在大规模真实数据上训练生成模型。团队承认从真实数据开始仍然是必要的;然而,当你拥有一个好的生成模型时,你可以将其重新用于新的任务,比如训练识别模型和视觉表示。
团队指出,他们并没有摆脱对真实数据的需求;只是一旦你拥有一个好的生成模型,你可以将其重新用于新的任务,比如训练识别模型和视觉表示。
虽然StableRep通过减少对大规模真实图像集合的依赖提供了一个很好的解决方案,但它也引发了人们对用于这些文本到图像模型的未筛选数据中隐藏偏见的担忧。文本提示的选择对图像合成过程至关重要,这并不完全没有偏见,“这表明了细致的文本选择或可能的人工策划的重要作用,”Fan说。
“通过使用最新的文本到图像模型,我们对图像生成获得了前所未有的控制,可以从单个文本输入中产生多样化的视觉效果。这超越了真实世界图像收集在效率和多样性方面的能力。它在特定任务中特别有用,比如在长尾识别中平衡图像多样性,为训练提供了实际的补充,”Fan说。“我们的工作标志着视觉学习的一大步向前,朝着提供经济高效的训练替代方案的目标迈进,同时也强调了数据质量和合成的持续改进的需求。”
“生成模型学习的一个长期梦想一直是能够生成对判别模型训练有用的数据,”谷歌DeepMind研究员、多伦多大学计算机科学教授David Fleet说,他没有参与这篇论文。“虽然我们已经看到了一些迹象,但这个梦想一直是难以实现的,特别是在像高分辨率图像这样的大规模复杂领域。这篇论文第一次据我所知提供了令人信服的证据,表明这个梦想正在变成现实。他们展示了从大量合成图像数据中进行对比学习可以产生超越从真实数据中学习的表示,在规模上具有改进各种下游视觉任务的潜力。”
该论文的首席作者是Yonglong Tian博士,同时还有麻省理工学院电气工程和计算机科学副教授、CSAIL首席研究员Phillip Isola;谷歌研究员、OpenAI技术人员Huiwen Chang;以及谷歌研究科学家Dilip Krishnan。该团队将在新奥尔良举行的2023年神经信息处理系统(NeurIPS)会议上展示StableRep。