为虚拟现实、电影制作和工程设计等应用创建逼真的3D模型可能是一个繁琐的过程,需要大量的手动试错。
虽然用于图像的生成性人工智能模型可以通过使创作者能够从文本提示生成栩栩如生的2D图像来简化艺术过程,但这些模型并不旨在生成3D形状。为了解决这个问题,最近开发了一种名为Score Distillation的技术,它利用2D图像生成模型来创建3D形状,但其输出往往模糊或卡通化。
麻省理工学院的研究人员探讨了用于生成2D图像和3D形状的算法之间的关系和差异,识别出低质量3D模型的根本原因。在此基础上,他们为Score Distillation设计了一个简单的修复方案,使得生成的3D形状更加清晰、高质量,接近最佳模型生成的2D图像的质量。
其他一些方法试图通过重新训练或微调生成性AI模型来解决这个问题,这可能既昂贵又耗时。
相比之下,麻省理工学院研究人员的技术在没有额外训练或复杂后处理的情况下,实现了与这些方法相当或更好的3D形状质量。
此外,通过识别问题的原因,研究人员提高了对Score Distillation及相关技术的数学理解,使未来的工作能够进一步提高性能。
“现在我们知道应该朝哪个方向前进,这使我们能够找到更高效的解决方案,速度更快,质量更高,”电气工程和计算机科学(EECS)研究生Artem Lukoianov说,他是该技术论文的第一作者。“从长远来看,我们的工作可以帮助简化设计师的过程,成为他们的副驾驶,使创建更逼真的3D形状变得更容易。”
Lukoianov的合著者包括牛津大学的研究生Haitz Sáez de Ocáriz Borde;麻省理工学院-IBM沃森人工智能实验室的研究科学家Kristjan Greenewald;丰田研究所的科学家Vitor Campagnolo Guizilini;Meta的研究科学家Timur Bagautdinov;以及资深作者Vincent Sitzmann,麻省理工学院EECS助理教授,计算机科学与人工智能实验室(CSAIL)场景表示组的负责人,以及Justin Solomon,EECS副教授和CSAIL几何数据处理组的负责人。该研究将在神经信息处理系统会议上展示。
从2D图像到3D形状
扩散模型,如DALL-E,是一种生成性AI模型,可以从随机噪声中生成栩栩如生的图像。为了训练这些模型,研究人员向图像添加噪声,然后教模型逆转该过程并去除噪声。模型利用这种学习到的“去噪”过程,根据用户的文本提示创建图像。
但是,扩散模型在直接生成逼真的3D形状方面表现不佳,因为没有足够的3D数据来训练它们。为了解决这个问题,研究人员在2022年开发了一种名为Score Distillation Sampling(SDS)的技术,利用预训练的扩散模型将2D图像组合成3D表示。
该技术涉及从随机3D表示开始,从随机相机角度渲染所需物体的2D视图,向该图像添加噪声,使用扩散模型去噪,然后优化随机3D表示,使其与去噪后的图像匹配。这些步骤重复进行,直到生成所需的3D物体。
然而,以这种方式生成的3D形状往往看起来模糊或过饱和。
“这一直是一个瓶颈。我们知道基础模型能够做得更好,但人们不知道为什么3D形状会出现这种情况,”Lukoianov说。
麻省理工学院的研究人员探讨了SDS的步骤,并识别出在形成该过程关键部分的公式与2D扩散模型中的对应公式之间的不匹配。该公式告诉模型如何通过逐步添加和去除噪声来更新随机表示,使其看起来更像所需的图像。
由于该公式的一部分涉及一个过于复杂而无法高效解决的方程,SDS在每一步用随机采样的噪声替代它。麻省理工学院的研究人员发现,这种噪声导致模糊或卡通化的3D形状。
一个近似答案
研究人员没有试图精确解决这个繁琐的公式,而是测试了近似技术,直到他们找到了最佳方案。他们的近似技术不是随机采样噪声项,而是从当前的3D形状渲染中推断缺失的项。
“通过这样做,正如论文中的分析所预测的,它生成的3D形状看起来清晰而逼真,”他说。
此外,研究人员提高了图像渲染的分辨率,并调整了一些模型参数,以进一步提升3D形状的质量。
最终,他们能够使用现成的预训练图像扩散模型创建平滑、逼真的3D形状,而无需昂贵的重新训练。这些3D物体的清晰度与依赖于临时解决方案的其他方法生成的物体相似。
“盲目尝试不同参数,有时有效,有时无效,但你不知道为什么。我们知道这是我们需要解决的方程。现在,这使我们能够考虑更高效的解决方案,”他说。
由于他们的方法依赖于预训练的扩散模型,因此它继承了该模型的偏见和缺陷,使其容易出现幻觉和其他失败。改善基础扩散模型将增强他们的过程。
除了研究公式以寻找更有效的解决方案外,研究人员还对如何利用这些见解改善图像编辑技术感兴趣。
Artem Lukoianov的工作由丰田-麻省理工学院CSAIL联合研究中心资助。Vincent Sitzmann的研究得到了美国国家科学基金会、新加坡国防科学与技术局、内政部/内政业务中心和IBM的支持。Justin Solomon的研究部分由美国陆军研究办公室、国家科学基金会、CSAIL数据未来计划、麻省理工学院-IBM沃森人工智能实验室、纬创资通和丰田-麻省理工学院CSAIL联合研究中心资助。