想象一种像黏液一样的机器人,可以无缝地改变形状,从而可以在人体内部移除不需要的物品。
虽然这样的机器人目前还只存在于实验室中,但研究人员正在努力开发可重构的软体机器人,用于医疗保健、可穿戴设备和工业系统等应用。
但是,如何控制一个没有关节、肢体或可以操纵的手指的软体机器人,并且可以随意改变整个形状以完成特定任务呢?麻省理工学院的研究人员正在努力回答这个问题。
他们开发了一种控制算法,可以自主学习如何移动、拉伸和塑造可重构机器人的形状,以完成特定任务,即使这些任务要求机器人多次改变形态。该团队还建立了一个模拟器,用于测试可变形软体机器人的控制算法在一系列具有挑战性的、可变形的任务上的表现。
他们的方法在评估的八个任务中都完成得很好,超过了其他算法。该技术在多方面任务上表现尤为出色。例如,在一个测试中,机器人必须在增长两条小腿以穿过狭窄的管道之前减小高度,然后再缩回腿部并延伸躯干以打开管道盖。
虽然可重构软体机器人仍处于初级阶段,但这种技术有望在未来实现能够适应不同任务的通用机器人。
“当人们想到软体机器人时,他们往往会想到弹性的机器人,但它们会恢复到原来的形状。我们的机器人就像黏液一样,实际上可以改变形态。我们的方法之所以如此成功,是因为我们正在处理一些非常新颖的东西,”电气工程和计算机科学(EECS)研究生、该方法的合著者陈博元说。
陈的合著者包括首席作者黄苏宁,他是中国清华大学的本科生,在麻省理工学院作为访问学生完成了这项工作;徐华哲,清华大学助理教授;以及资深作者文森特·西茨曼,麻省理工学院计算机科学与人工智能实验室的场景表示组负责人。该研究将在国际学习表示会议上进行展示。
控制动态运动
科学家通常使用一种称为强化学习的机器学习方法来教导机器人完成任务,这是一个通过试错过程,机器人根据接近目标的行动获得奖励的过程。
当机器人的运动部件一致且明确定义时,比如一个带有三个手指的夹爪,强化学习算法可以稍微移动一个手指,通过试错来判断这个动作是否值得奖励。然后它会移动到下一个手指,依此类推。
但是,由磁场控制的变形机器人可以动态地挤压、弯曲或延伸整个身体。
“这样的机器人可能有成千上万个小肌肉来控制,所以传统的学习方法非常困难,”陈说。
为了解决这个问题,他和他的合作者们不得不以不同的方式思考。他们的强化学习算法不是逐个移动每个小肌肉,而是从学习如何控制一组相邻的肌肉开始。
然后,在算法通过关注肌肉组的方式探索可能行动空间后,它会进一步优化已学到的策略或行动计划。这样,控制算法遵循了一个由粗到细的方法。
“粗到细意味着当你采取随机行动时,这个随机行动很可能会产生影响。结果的变化可能非常显著,因为你粗略地同时控制了几个肌肉,”西茨曼说。
为了实现这一点,研究人员将机器人的行动空间(即它在某个区域内的移动方式)视为一幅图像。
他们的机器学习模型使用机器人环境的图像生成一个二维行动空间,其中包括机器人和周围区域。他们使用所谓的材料点方法模拟机器人的运动,其中行动空间由点(类似于图像像素)覆盖,并与网格叠加。
就像图像中附近的像素相关一样(比如形成照片中的树的像素),他们构建了他们的算法来理解附近的行动点之间存在较强的相关性。当机器人改变形状时,肩膀周围的点将以相似的方式移动,而腿上的点也将以与肩膀上的点不同的方式移动。
此外,研究人员使用相同的机器学习模型来观察环境并预测机器人应该采取的行动,从而使其更加高效。
构建模拟器
在开发了这种方法之后,研究人员需要一种测试方法,于是他们创建了一个名为DittoGym的模拟环境。
DittoGym包含八个任务,评估可重构机器人动态改变形状的能力。其中一个任务是,机器人必须伸长和弯曲身体,以便绕过障碍物到达目标点。另一个任务是,它必须改变形状以模仿字母。
“我们在DittoGym中选择的任务既符合通用强化学习基准设计原则,又符合可重构机器人的特定需求。每个任务都被设计成代表我们认为重要的某些属性,比如能够通过长时间探索导航、分析环境和与外部物体交互的能力,”黄苏宁说。“我们相信,它们共同可以使用户全面了解可重构机器人的灵活性和我们的强化学习方案的有效性。”
他们的算法优于基准方法,并且是唯一适用于需要多次形状变化的多阶段任务的技术。
“我们在相邻的行动点之间有更强的相关性,我认为这是使这项工作如此成功的关键,”陈说。
虽然在现实世界中部署变形机器人可能还需要很多年,但陈和他的合作者们希望他们的工作不仅能激发其他科学家研究可重构软体机器人,还能思考如何利用二维行动空间解决其他复杂的控制问题。