麻省理工学院研究人员开发了一种高效的方法来训练更可靠的人工智能代理

从机器人技术到医学再到政治科学等多个领域正在尝试训练人工智能系统,以便做出各种有意义的决策。例如,使用人工智能系统智能地控制拥堵城市的交通,可以帮助司机更快到达目的地,同时提高安全性或可持续性。

不幸的是,教会人工智能系统做出良好决策并不是一件容易的事情。

强化学习模型是这些人工智能决策系统的基础,但在面对它们被训练执行的任务的微小变化时,仍然常常失败。在交通控制的情况下,一个模型可能会在控制具有不同速度限制、车道数量或交通模式的一组交叉口时遇到困难。

为了提高强化学习模型在具有变异性的复杂任务中的可靠性,麻省理工学院的研究人员引入了一种更高效的训练算法。

该算法战略性地选择最佳任务来训练人工智能代理,以便它能够有效地执行一组相关任务中的所有任务。在交通信号控制的情况下,每个任务可以是一个交叉口,而任务空间包括城市中的所有交叉口。

通过专注于对算法整体有效性贡献最大的少数交叉口,这种方法在保持训练成本低的同时最大化了性能。

研究人员发现,他们的技术在一系列模拟任务中比标准方法高效五到五十倍。这种效率的提升帮助算法以更快的方式学习更好的解决方案,最终提高了人工智能代理的性能。

“我们能够通过跳出框架,使用一个非常简单的算法看到令人难以置信的性能提升。一个不太复杂的算法更有可能被社区采纳,因为它更容易实现,也更容易让其他人理解,”资深作者凯西·吴(Cathy Wu)说,她是土木与环境工程(CEE)和数据、系统与社会研究所(IDSS)的托马斯·D·和维吉尼亚·W·卡博特职业发展副教授,同时也是信息与决策系统实验室(LIDS)的成员。

她在论文中与首席作者郑熙勋(Jung-Hoon Cho,一名CEE研究生)、温杜拉·贾亚瓦尔达纳(Vindula Jayawardana,一名电气工程与计算机科学系(EECS)的研究生)和李思睿(Sirui Li,一名IDSS研究生)共同合作。该研究将在神经信息处理系统会议上进行展示。

寻找折中方案

为了训练一个算法来控制城市中多个交叉口的交通信号,工程师通常会在两种主要方法之间进行选择。她可以为每个交叉口独立训练一个算法,仅使用该交叉口的数据,或者使用所有交叉口的数据训练一个更大的算法,然后将其应用于每个交叉口。

但每种方法都有其缺点。为每个任务(例如特定交叉口)训练一个单独的算法是一个耗时的过程,需要大量的数据和计算,而为所有任务训练一个算法通常会导致性能不佳。

吴和她的合作者寻求这两种方法之间的最佳平衡。

在他们的方法中,他们选择一组任务,并为每个任务独立训练一个算法。重要的是,他们战略性地选择最有可能提高算法在所有任务上整体性能的单个任务。

他们利用了强化学习领域中的一个常见技巧,称为零样本迁移学习,其中一个已经训练好的模型被应用于一个新任务,而无需进一步训练。通过迁移学习,模型在新邻近任务上通常表现得相当出色。

“我们知道在所有任务上训练是理想的,但我们想知道是否可以通过在这些任务的子集上进行训练,应用结果到所有任务上,并仍然看到性能提升,”吴说。

为了确定他们应该选择哪些任务以最大化预期性能,研究人员开发了一种称为基于模型的迁移学习(MBTL)的算法。

MBTL算法有两个部分。首先,它建模每个算法如果在一个任务上独立训练时的表现如何。然后,它建模如果将每个算法转移到其他任务时,其性能会下降多少,这一概念被称为泛化性能。

明确建模泛化性能使得MBTL能够估计在新任务上训练的价值。

MBTL以顺序方式进行,首先选择导致最高性能提升的任务,然后选择提供最大后续边际改进的其他任务。

由于MBTL只关注最有前景的任务,它可以显著提高训练过程的效率。

降低训练成本

当研究人员在模拟任务上测试这一技术时,包括控制交通信号、管理实时速度建议和执行几个经典控制任务时,它比其他方法高效五到五十倍。

这意味着他们可以通过训练更少的数据达到相同的解决方案。例如,借助50倍的效率提升,MBTL算法可以仅在两个任务上进行训练,并达到与使用100个任务数据的标准方法相同的性能。

“从这两种主要方法的角度来看,这意味着其他98个任务的数据并不是必需的,或者在所有100个任务上训练对算法来说是混淆的,因此性能最终比我们的要差,”吴说。

使用MBTL,即使增加少量额外的训练时间也可能导致性能大幅提升。

未来,研究人员计划设计可以扩展到更复杂问题的MBTL算法,例如高维任务空间。他们还希望将他们的方法应用于现实世界的问题,特别是在下一代移动系统中。

该研究部分由国家科学基金会的CAREER奖、宽井教育基金会的博士奖学金项目和亚马逊机器人博士奖学金资助。