新方法利用众包反馈来帮助训练机器人

为了教会一个AI代理人如何打开厨房橱柜,研究人员通常使用强化学习——一种试错过程,代理人通过采取接近目标的行动来获得奖励。

在许多情况下,人类专家必须精心设计奖励函数,这是一种激励机制,给予代理人探索的动力。人类专家必须不断更新奖励函数,因为代理人在探索和尝试不同的行动时。这可能是耗时、低效和难以扩展的,特别是当任务复杂并涉及多个步骤时。

麻省理工学院、哈佛大学和华盛顿大学的研究人员开发了一种新的强化学习方法,不依赖于专家设计的奖励函数。相反,它利用从许多非专家用户那里收集到的众包反馈来指导代理人学习达到目标。

虽然其他一些方法也尝试利用非专家反馈,但这种新方法使得AI代理人能够更快地学习,尽管从用户那里众包的数据通常充满错误。这些嘈杂的数据可能导致其他方法失败。

此外,这种新方法允许异步收集反馈,因此全球的非专家用户可以为教授代理人做出贡献。

麻省理工学院电气工程与计算机科学系(EECS)助理教授、麻省理工学院计算机科学与人工智能实验室(CSAIL)不可思议AI实验室负责人Pulkit Agrawal表示:“当今设计机器人代理人最耗时和具有挑战性的部分之一是工程化奖励函数。今天的奖励函数是由专家研究人员设计的,这是一种不可扩展的范式,如果我们想教我们的机器人许多不同的任务,这是不可扩展的。我们的工作提出了一种通过众包设计奖励函数的方法,并使非专家能够提供有用反馈的可能性,从而扩展机器人学习。”

将来,这种方法可以帮助机器人快速学习在用户家中执行特定任务,而无需所有者展示机器人每个任务的物理示例。机器人可以自行探索,由众包的非专家反馈指导其探索。

“在我们的方法中,奖励函数引导代理人应该探索的内容,而不是告诉它完成任务的确切方法。因此,即使人类监督有些不准确和嘈杂,代理人仍然能够探索,这有助于它学习得更好,”不可思议AI实验室的研究助理Marcel Torne ’23解释道。

Torne与他的麻省理工学院导师Agrawal、华盛顿大学助理教授Abhishek Gupta以及华盛顿大学和麻省理工学院的其他人共同撰写了这篇论文。该研究将在下个月的神经信息处理系统会议上进行展示。

嘈杂的反馈

收集强化学习的用户反馈的一种方法是向用户展示代理人实现的两个状态的照片,然后询问用户哪个状态更接近目标。例如,也许一个机器人的目标是打开一个厨房橱柜。一张照片可能显示机器人打开了橱柜,而第二张照片可能显示它打开了微波炉。用户会选择“更好”状态的照片。

一些先前的方法尝试使用这种众包的二进制反馈来优化代理人用于学习任务的奖励函数。然而,由于非专家可能会犯错误,奖励函数可能变得非常嘈杂,因此代理人可能会陷入困境,永远无法达到目标。

Torne说:“基本上,代理人会过于认真地对待奖励函数。它会试图完美地匹配奖励函数。因此,我们不是直接优化奖励函数,而是使用它来告诉机器人它应该探索哪些领域。”

他和他的合作者将这个过程分解为两个独立的部分,每个部分由自己的算法指导。他们将他们的新强化学习方法称为HuGE(Human Guided Exploration)。

一方面,目标选择算法不断更新,以众包的人类反馈为指导。这些反馈不用作奖励函数,而是用来指导代理人的探索。从某种意义上说,非专家用户留下了面包屑,逐步引导代理人朝着目标前进。

另一方面,代理人自主地进行探索,以自我监督的方式由目标选择器指导。它收集尝试的图像或视频,然后发送给人类并用于更新目标选择器。

这缩小了代理人探索的范围,使其更接近目标的有希望的区域。但如果没有反馈,或者反馈需要一段时间才能到达,代理人将继续自主学习,尽管速度较慢。这使得反馈可以不频繁且异步地收集。

Torne补充说:“探索循环可以保持自主进行,因为它只会探索和学习新事物。然后当你得到一些更好的信号时,它会以更具体的方式进行探索。你可以让它们按照自己的节奏进行。”

由于反馈只是轻轻地指导代理人的行为,即使用户提供错误答案,它最终也会学会完成任务。

更快的学习

研究人员在许多模拟和现实世界的任务上测试了这种方法。在模拟中,他们使用HuGE有效地学习了具有长序列动作的任务,例如按特定顺序堆叠方块或在大型迷宫中导航。

在现实世界的测试中,他们利用HuGE训练机械臂画字母“U”和拾取放置物体。对于这些测试,他们从来自13个不同国家、涵盖三个大陆的109名非专家用户那里收集了数据。

在现实世界和模拟实验中,HuGE帮助代理人比其他方法更快地学会达到目标。

研究人员还发现,从非专家那里众包的数据比研究人员产生和标记的合成数据表现更好。对于非专家用户来说,标记30张图像或视频只需要不到两分钟。

Torne补充说:“这使得这种方法在能够扩展上非常有前景。”

在一篇相关的论文中,研究人员在最近的机器人学习会议上展示了他们对HuGE的改进,使得AI代理人可以学会执行任务,然后自动重置环境以继续学习。例如,如果代理人学会打开一个橱柜,该方法还会指导代理人关闭橱柜。

他说:“现在我们可以让它完全自主地学习,而不需要人类重置。”

研究人员还强调,在这种和其他学习方法中,确保AI代理人与人类价值观一致是至关重要的。

在未来,他们希望继续改进HuGE,使代理人能够从其他形式的交流中学习,例如自然语言和与机器人的物理交互。他们还有兴趣将这种方法应用于同时教授多个代理人。

这项研究部分由麻省理工学院-IBM沃森人工智能实验室资助。