研究人员来自麻省理工学院计算机科学与人工智能实验室(CSAIL)和谷歌研究,他们可能刚刚进行了数字魔术 – 通过扩散模型改变图像中物体的材料属性。
这个系统被称为Alchemist,它允许用户改变真实和人工智能生成的图片的四个属性:粗糙度、金属性、反射率(物体的初始基色)和透明度。作为一种图像到图像的扩散模型,可以输入任何照片,然后在-1到1的连续范围内调整每个属性,以创建一个新的视觉效果。这些照片编辑功能有可能扩展到改进视频游戏中的模型,扩展人工智能在视觉效果方面的能力,并丰富机器人训练数据。
Alchemist的魔力始于去噪扩散模型:在实践中,研究人员使用了稳定扩散1.5,这是一个因其逼真的结果和编辑能力而受到赞誉的文本到图像模型。以前的工作在这个流行模型的基础上进行了改进,使用户能够进行更高级别的更改,比如交换对象或改变图像的深度。相比之下,CSAIL和谷歌研究的方法将这个模型应用于低级属性,通过一个独特的基于滑块的界面修改物体材料属性的细节,优于其他类似方法。
虽然以前的扩散系统可以像变魔术一样从帽子里变出一只兔子的图像,但Alchemist可以使同一只动物看起来半透明。该系统还可以使橡皮鸭子看起来金属质感,去除金鱼的金色光泽,并使旧鞋发光。像Photoshop这样的程序也具有类似的功能,但这个模型可以以更直接的方式改变材料属性。例如,在广泛使用的应用程序中修改照片的金属外观需要几个步骤。
麻省理工学院电气工程和计算机科学专业的博士生、CSAIL成员和这项工作的主要作者Prafull Sharma表示:“当你看着你创造的图像时,通常结果并不完全符合你的想法。你想在编辑图片时控制图片,但是图像编辑器中现有的控件无法改变材料。通过Alchemist,我们利用文本到图像模型的逼真输出,并提供一个滑块控制,使我们能够在提供初始图片后修改特定属性。”
“文本到图像生成模型使普通用户能够像写句子一样轻松生成图像。然而,控制这些模型可能是具有挑战性的,”卡内基梅隆大学助理教授朱俊彦说,他没有参与这项研究。“生成一个花瓶很简单,但合成具有特定材料属性(如透明度和粗糙度)的花瓶需要用户花费数小时尝试不同的文本提示和随机种子。这可能令人沮丧,特别是对于需要在工作中精确控制的专业用户来说。Alchemist通过在提供大规模扩散模型的数据驱动先验的同时,实现了对输入图像材料的精确控制,为将生成模型无缝融入常用内容创作软件的现有界面提供了实际解决方案。”
Alchemist的设计能力可以帮助调整视频游戏中不同模型的外观。在这个领域应用这样的扩散模型可以帮助创作者加快设计过程,调整纹理以适应关卡的游戏性。此外,Sharma和他的团队的项目还可以帮助改变图形设计元素、视频和电影效果,以增强逼真度并实现所需的材料外观。
这种方法还可以改进机器人训练数据,例如操纵任务。通过让机器接触更多的纹理,它们可以更好地理解真实世界中的各种物品。Alchemist甚至可以帮助图像分类,分析神经网络无法识别图像材料变化的位置。
Sharma和他的团队的工作在只忠实地编辑用户请求的对象方面超过了类似的模型。例如,当用户提示不同的模型将海豚调整到最大透明度时,只有Alchemist能够实现这一目标,同时保持海洋背景不变。当研究人员将可比较的扩散模型InstructPix2Pix与他们的方法在相同的数据上进行比较时,发现Alchemist的准确性得分更高。同样,一项用户研究显示,麻省理工学院的模型更受欢迎,被认为比其对手更逼真。
根据研究人员的说法,收集真实数据是不切实际的。相反,他们在Blender中对100个公开可用的独特3D对象应用了1,200种材料的合成数据集进行了模型训练。
“迄今为止,生成AI图像合成的控制受到文本描述的限制,”麻省理工学院电气工程和计算机科学系(EECS)的Amar Bose计算机教授、CSAIL成员Frédo Durand说,“这项工作为从几十年的计算机图形研究中继承的视觉属性提供了新的、更精细的控制。”
谷歌研究高级软件工程师和合著者Mark Matthews补充说:“Alchemist是使机器学习和扩散模型对CGI社区和图形设计师实用和有用的技术。没有它,你只能面对这种无法控制的随机性。这可能有趣一段时间,但在某个时候,你需要完成真正的工作,并使其符合创意愿景。”
Sharma的最新项目是在一年前他领导的关于Materialistic的研究之后进行的,Materialistic是一种可以识别图像中相似材料的机器学习方法。这项先前的工作展示了AI模型如何改进其对材料的理解能力,与Alchemist一样,它也是在Blender的合成数据集上进行了微调。
然而,目前Alchemist还有一些局限性。该模型在正确推断照明方面存在困难,因此有时无法按照用户的输入进行操作。Sharma指出,这种方法有时也会生成不合理的透明度。例如,想象一只手部分伸入一个麦片盒中 – 在Alchemist的最大设置下,你会看到一个透明的容器,而没有手指伸入其中。
研究人员希望进一步探索这种模型如何改进场景级别的图形的3D资产。此外,Alchemist还可以帮助从图像中推断材料属性。根据Sharma的说法,这种工作类型可能在未来揭示物体的视觉和机械特性之间的联系。
麻省理工学院电气工程和计算机科学系教授、CSAIL成员William T. Freeman也是该论文的高级作者,与Varun Jampani、谷歌研究科学家Yuanzhen Li和Dmitry Lagun一起参与了研究。这项工作得到了美国国家科学基金会的资助,以及谷歌和亚马逊的捐赠。该团队的工作将在6月的CVPR会议上进行重点展示。