贝赫鲁兹·塔马塞比(Behrooz Tahmasebi)是麻省理工学院(MIT)电气工程与计算机科学系(EECS)的博士生,也是计算机科学与人工智能实验室(CSAIL)的成员。2021年末,他在一门微分方程课程中第一次了解到魏尔定律(Weyl’s law),这个定律是由德国数学家赫尔曼·魏尔(Hermann Weyl)在110年前提出的。塔马塞比意识到这个定律可能与他当时正在研究的计算机科学问题有关,尽管这种联系表面上看起来很薄弱。他说,魏尔定律提供了一个衡量鼓面或吉他弦的基频中包含的谱信息或数据复杂性的公式。
同时,塔马塞比也在思考如何衡量神经网络输入数据的复杂性,想知道是否可以通过考虑数据集固有的对称性来减少复杂性。这种减少可以促进和加快机器学习过程。
魏尔定律在机器学习繁荣之前的一个世纪被应用于非常不同的物理情况,比如弦的振动或加热物体发出的电磁(黑体)辐射的频谱。然而,塔马塞比认为,定制版本的魏尔定律可能有助于他正在追求的机器学习问题。如果这种方法行之有效,回报将是可观的。
他与他的导师斯特凡妮·耶格尔卡(Stefanie Jegelka)进行了交流,耶格尔卡是EECS的副教授,也是CSAIL和MIT数据、系统和社会研究所的成员。塔马塞比认为,魏尔定律与数据的复杂性有关,这个项目也是如此。但是,魏尔定律在其原始形式中并没有提到对称性。
他和耶格尔卡现在成功地修改了魏尔定律,使对称性可以纳入数据集复杂性的评估中。塔马塞比说:“据我所知,这是魏尔定律首次被用于确定对称性如何增强机器学习。”
他和耶格尔卡撰写的论文在2023年12月的神经信息处理系统会议上获得了“焦点”称号,该会议被广泛认为是世界上最重要的机器学习会议。
约翰霍普金斯大学应用数学家索莱达·维拉尔(Soledad Villar)评论说,这项工作“表明满足问题的对称性的模型不仅是正确的,而且可以产生具有较小误差的预测,使用少量的训练点。这在科学领域尤其重要,比如计算化学,其中训练数据可能很稀缺。”
在他们的论文中,塔马塞比和耶格尔卡探讨了对称性或所谓的“不变性”如何有益于机器学习。例如,假设一个特定的计算机运行的目标是找出包含数字3的每个图像。如果算法可以无论数字3位于图像的哪个位置(无论是正中间还是偏离一侧),无论是正面朝上、倒置还是以随机角度定向,都能识别出数字3,那么这个任务就会变得更容易、更快速。具备这种能力的算法可以利用平移和旋转的对称性,意味着数字3或任何其他对象在改变位置或绕任意轴旋转时并不改变其本身。这被称为对这些变化具有不变性。同样的逻辑也可以应用于负责识别狗或猫的算法。无论狗儿如何嵌入在图像中,都是狗儿。
作者解释说,整个研究的目的是利用数据集固有的对称性来减少机器学习任务的复杂性。这反过来可以减少学习所需的数据量。具体而言,这项新工作回答了一个问题:如果数据包含对称性,训练机器学习模型需要减少多少数据量?
通过利用存在的对称性,有两种方式可以获得收益或好处。第一种与要查看的样本的大小有关。例如,假设你的任务是分析一个具有镜像对称性的图像,右侧是左侧的精确复制品或镜像。在这种情况下,你不必查看每个像素;你可以从图像的一半获取所有所需的信息,这是一个两倍的改进。另一方面,如果图像可以被分成10个相同的部分,你可以获得10倍的改进。这种提升效果是线性的。
举个例子,假设你正在筛选一个数据集,试图找到包含七种不同颜色(黑色、蓝色、绿色、紫色、红色、白色和黄色)的块序列。如果你不关心块的排列顺序,那么你的工作将变得更容易。如果顺序很重要,那么你需要寻找5040种不同的组合。但是,如果你只关心所有七种颜色都出现的块序列,那么你将把你要搜索的事物或序列的数量从5040减少到1。
塔马塞比和耶格尔卡发现,可以通过利用作用于多个维度的对称性获得一种不同类型的收益,这种收益是指数级的。这个优势与学习任务的复杂性随数据空间的维度呈指数增长的概念有关。因此,利用多维对称性可以获得不成比例的回报。塔马塞比说:“这是一个新的贡献,基本上告诉我们,更高维度的对称性更重要,因为它们可以给我们带来指数级的收益。”
他与耶格尔卡在NeurIPS 2023的论文中证明了两个数学定理。塔马塞比说:“第一个定理表明,我们提供的通用算法可以改善样本复杂性。”他补充说,第二个定理是第一个定理的补充,“表明这是你可以获得的最佳收益;没有其他可行的方法。”
他和耶格尔卡提供了一个公式,可以预测在给定应用中可以从特定对称性获得的收益。塔马塞比指出,这个公式的优点是它的普适性。“它适用于任何对称性和任何输入空间。”它不仅适用于今天已知的对称性,还可以应用于未来尚未发现的对称性。考虑到寻找新对称性长期以来一直是物理学的主要推动力,这表明随着发现更多对称性,塔马塞比和耶格尔卡引入的方法只会随着时间的推移变得更好。
以色列理工学院(Technion)和NVIDIA的计算机科学家哈加伊·马龙(Haggai Maron)对这项工作没有参与,他表示,论文中提出的方法“与相关的先前工作有很大不同,采用了几何视角,并使用了微分几何的工具。这个理论贡献为“几何深度学习”这个新兴子领域提供了数学支持,该领域在图形学习、3D数据等方面具有应用。这篇论文有助于建立一个理论基础,以指导这个快速扩展的研究领域的进一步发展。”