NVIDIA展示了视觉人工智能的最新进展。

NVIDIA研究人员本周在西雅图举行的计算机视觉和模式识别（CVPR）会议上展示了新的视觉生成AI模型和技术。这些进展涵盖了定制图像生成、3D场景编辑、视觉语言理解和自动驾驶车辆感知等领域。

“NVIDIA的副总裁兼学习与感知研究部门负责人Jan Kautz表示：“人工智能，尤其是生成式人工智能，代表了一项关键的技术进步。”他还说：“在CVPR上，NVIDIA研究部门将分享我们如何推动可能性的边界——从强大的图像生成模型，可以为专业创作者提供强大支持，到可以帮助实现下一代自动驾驶汽车的自动驾驶软件。”

在50多个NVIDIA研究项目中，有两篇论文入围CVPR最佳论文奖的决赛，其中一篇探讨了扩散模型的训练动态，另一篇则是关于自动驾驶汽车的高清地图。

此外，NVIDIA在CVPR自主驾驶大挑战赛的端到端驾驶规模赛道中获胜，超过全球450多个参赛作品。这一里程碑展示了NVIDIA在使用生成式人工智能进行全面自动驾驶车辆模型方面的开创性工作，并获得了CVPR的创新奖。

其中一个重要的研究项目是JeDi，这是一种新技术，可以让创作者通过仅使用少量参考图像而不是耗时的自定义数据集微调，快速定制扩散模型（文本到图像生成的主要方法）来描绘特定对象或角色。

另一个突破是FoundationPose，这是一个新的基础模型，可以在没有针对每个对象进行训练的情况下，即时理解和跟踪视频中对象的3D姿势。它创造了新的性能记录，并可能为增强现实和机器人应用打开新的可能性。

NVIDIA研究人员还介绍了NeRFDeformer，这是一种使用单个2D快照编辑由神经辐射场（NeRF）捕捉的3D场景的方法，而无需手动重新动画变化或完全重新创建NeRF。这可以简化图形、机器人和数字孪生应用的3D场景编辑。

在视觉语言方面，NVIDIA与麻省理工学院合作开发了VILA，这是一系列新的视觉语言模型，可以在理解图像、视频和文本方面实现最先进的性能。通过增强的推理能力，VILA甚至可以通过结合视觉和语言理解来理解互联网迷因。

NVIDIA的视觉AI研究涵盖了许多行业，包括十几篇论文探索自动驾驶车辆感知、地图制作和规划的新方法。NVIDIA的AI研究团队副总裁Sanja Fidler将就视觉语言模型在自动驾驶汽车中的潜力进行演讲。

NVIDIA在CVPR的研究广度展示了生成式人工智能如何赋予创作者能力，加速制造业和医疗保健领域的自动化，并推动自主性和机器人技术的发展。

（图片由v2osk提供）

想要从行业领导者那里了解更多关于人工智能和大数据的知识吗？请参加在阿姆斯特丹、加利福尼亚和伦敦举办的AI & Big Data Expo。这个综合性的活动与其他领先的活动同时举办，包括智能自动化会议、BlockX、数字转型周和网络安全与云计算博览会。

请点击此处查看由TechForge提供支持的其他即将举行的企业技术活动和网络研讨会。

相关文章

Fetch.ai和德国电信合作，将人工智能和区块链融合在一起。

‘NVIDIA和Meta首席执行官：每个企业都将“拥有一个AI”’

“麻省理工学院工程师研发‘高层’3D芯片”

3个问题：在人工智能时代塑造未来工作的形态