要构建一个更好的AI助手，首先要对人类的非理性行为进行建模。

为了构建能够有效与人类合作的人工智能系统，最好先有一个良好的人类行为模型作为起点。但是人类在做决策时往往表现出次优行为。

这种非理性行为往往归结为计算限制，而这种限制尤其难以建模。一个人无法花几十年时间思考单个问题的理想解决方案。

麻省理工学院和华盛顿大学的研究人员开发了一种方法，可以对一个代理人（无论是人还是机器）的行为进行建模，考虑到可能妨碍代理人解决问题能力的未知计算限制。

他们的模型可以通过观察代理人之前的行动痕迹来自动推断代理人的计算限制。结果，代理人的所谓“推理预算”可以用来预测代理人的未来行为。

在一篇新论文中，研究人员演示了他们的方法如何通过之前的路径推断出某人的导航目标，并预测国际象棋比赛中玩家的下一步棋。他们的技术与另一种流行的建模这种类型决策的方法相匹配或超越。

最终，这项工作可以帮助科学家教会人工智能系统如何模仿人类行为，从而使这些系统更好地响应人类合作者。能够理解人类的行为，然后从中推断出他们的目标，可以使人工智能助手更加有用，麻省理工学院电气工程和计算机科学（EECS）研究生、该技术论文的主要作者Athul Paul Jacob说。

“如果我们知道一个人即将犯错误，通过观察他们之前的行为，人工智能代理可以介入并提供更好的解决方法。或者代理可以适应其人类合作者的弱点。能够建模人类行为是构建一个真正能够帮助人类的人工智能代理的重要一步，”他说。

Jacob与华盛顿大学助理教授Abhishek Gupta和EECS副教授、计算机科学与人工智能实验室（CSAIL）成员Jacob Andreas合著了这篇论文。该研究将在国际学习表示会议上进行展示。

行为建模

研究人员几十年来一直在构建人类行为的计算模型。许多先前的方法尝试通过向模型中添加噪声来解释次优决策。模型可能会让代理人在每次选择时都选择正确选项的概率为95%。

然而，这些方法可能无法捕捉到人类不总是以相同方式表现次优的事实。

麻省理工学院的其他研究人员也研究了在面对次优决策时规划和推断目标的更有效方法。

Jacob和他的合作者从之前对国际象棋选手的研究中获得了灵感。他们注意到，玩家在做简单的移动之前思考的时间较短，而在具有挑战性的比赛中，强者往往比弱者花更多时间进行规划。

“归根结底，我们发现规划的深度，或者说某人思考问题的时间有多长，是人类行为的一个很好的代理，”Jacob说。

他们构建了一个框架，可以从之前的行动中推断出代理人的规划深度，并利用这些信息来建模代理人的决策过程。

他们方法的第一步是运行一个算法一段时间来解决正在研究的问题。例如，如果他们正在研究国际象棋比赛，他们可能会让国际象棋算法运行一定数量的步骤。最后，研究人员可以看到算法在每个步骤中做出的决策。

他们的模型将这些决策与解决同一问题的代理人的行为进行比较。它将代理人的决策与算法的决策对齐，并确定代理人停止规划的步骤。

通过这个，模型可以确定代理人的推理预算，即代理人在解决类似问题时的规划时间。它可以使用推理预算来预测代理人在解决类似问题时的反应。

可解释的解决方案

这种方法非常高效，因为研究人员可以在不进行任何额外工作的情况下访问问题解决算法所做出的全部决策。这个框架也可以应用于任何可以用特定类别的算法解决的问题。

“对我来说，最引人注目的是这个推理预算非常可解释。它表明更困难的问题需要更多的规划，或者成为一名强者意味着需要更长时间的规划。当我们开始做这项工作时，我们并没有想到我们的算法能够自然地捕捉到这些行为，”Jacob说。

研究人员在三个不同的建模任务中测试了他们的方法：从先前的路径推断导航目标，从口头线索猜测某人的交流意图，以及预测人与人之间国际象棋比赛中的下一步棋。

在每个实验中，他们的方法要么与另一种流行的方法相匹配，要么超越。此外，研究人员发现他们的人类行为模型与玩家技能（在国际象棋比赛中）和任务难度的度量相吻合。

未来，研究人员希望利用这种方法来建模其他领域的规划过程，例如强化学习（一种常用于机器人技术的试错方法）。从长远来看，他们打算在这项工作的基础上继续努力，以实现开发更有效的人工智能合作者的更大目标。

这项工作得到了麻省理工学院Schwarzman计算机学院的人工智能增强和生产力计划以及美国国家科学基金会的支持。

相关文章