技术使得边缘设备上的人工智能能够随着时间的推移不断学习。

个性化的深度学习模型可以实现适应用户口音的人工智能聊天机器人,或者根据用户的打字历史不断更新以更好地预测下一个单词的智能键盘。这种定制需要不断使用新数据对机器学习模型进行微调。

由于智能手机和其他边缘设备缺乏进行这种微调过程所需的内存和计算能力,用户数据通常会上传到云服务器进行模型更新。但数据传输消耗大量能量,并且将敏感用户数据发送到云服务器会带来安全风险。

麻省理工学院(MIT)、MIT-IBM沃森人工智能实验室和其他机构的研究人员开发了一种技术,使深度学习模型能够在边缘设备上直接高效地适应新的传感器数据。

他们的设备上训练方法被称为PockEngine,它确定了需要更新以提高准确性的庞大机器学习模型的哪些部分,并仅存储和计算这些特定部分。它在模型准备过程中进行大部分计算,即在运行时之前,从而最大程度地减少计算开销并提高微调过程的速度。

与其他方法相比,PockEngine在设备上的训练速度显著加快,在某些硬件平台上的速度提高了15倍。此外,PockEngine不会导致模型准确性下降。研究人员还发现,他们的微调方法使一个流行的人工智能聊天机器人能够更准确地回答复杂问题。

“设备上的微调可以实现更好的隐私保护、降低成本、定制能力,还可以实现终身学习,但这并不容易。所有事情都必须在有限的资源下完成。我们希望能够在边缘设备上运行推理和训练。现在有了PockEngine,我们可以做到了,”麻省理工学院电气工程与计算机科学系(EECS)副教授、MIT-IBM沃森人工智能实验室成员、NVIDIA杰出科学家、PockEngine的开放访问论文的高级作者宋汉说。

该论文的作者还包括麻省理工学院电气工程与计算机科学系研究生、MIT-IBM沃森人工智能实验室和加利福尼亚大学圣地亚哥分校的其他人员。该论文最近在IEEE/ACM微架构国际研讨会上发表。

逐层进行

深度学习模型基于神经网络,它由许多相互连接的节点或“神经元”组成,用于处理数据以进行预测。当模型运行时,即推理过程,数据输入(例如图像)从一层传递到另一层,直到最后输出预测结果(例如图像标签)。在推理过程中,每一层在处理输入后不再需要存储。

但在训练和微调过程中,模型经历一种称为反向传播的过程。在反向传播中,将模型的输出与正确答案进行比较,然后以相反的顺序运行模型。随着模型的输出越来越接近正确答案,每一层都会更新。

由于每一层可能需要更新,整个模型和中间结果都必须存储,使得微调比推理更需要内存。

然而,并非神经网络中的所有层对提高准确性都很重要。即使对于重要的层,也可能不需要更新整个层。这些层和层的部分不需要存储。此外,为了提高准确性,可能不需要一直回溯到第一层,可以在中间某个位置停止。

PockEngine利用这些因素加快了微调过程的速度,并减少了所需的计算和内存量。

该系统首先逐层进行微调,每次在特定任务上逐层进行微调,并在每个单独层次之后测量准确性的改善。通过这种方式,PockEngine确定了每个层次的贡献,以及准确性和微调成本之间的权衡,并自动确定需要微调的每个层次的百分比。

“与不同任务和不同神经网络上的完全反向传播相比,这种方法在准确性方面非常匹配,”汉补充道。

简化模型

传统上,反向传播图是在运行时生成的,这涉及大量计算。相反,PockEngine在编译时进行这个过程,即在模型准备部署时。

PockEngine删除代码的一部分,以删除不必要的层或层的部分,从而创建一个简化的模型图,用于运行时。然后,它对该图进行其他优化以进一步提高效率。

由于所有这些只需要执行一次,因此可以节省运行时的计算开销。

“这就像在开始远足之前。在家里,你会进行仔细的计划——你要走哪些小径,你要忽略哪些小径。因此,在实际远足时,你已经有了一个非常仔细的计划要遵循,”汉解释道。

当他们将PockEngine应用于不同边缘设备上的深度学习模型时,包括苹果M1芯片和许多智能手机和树莓派计算机上常见的数字信号处理器,它在设备上的训练速度提高了15倍,而且准确性没有下降。PockEngine还大幅减少了微调所需的内存量。

该团队还将这种技术应用于大型语言模型Llama-V2。对于大型语言模型,微调过程涉及提供许多示例,对于模型学习如何与用户交互至关重要,汉说。这个过程对于解决复杂问题或推理解决方案的模型也很重要。

例如,使用PockEngine进行微调的Llama-V2模型正确回答了“迈克尔·杰克逊的最后一张专辑是什么?”这个问题,而没有进行微调的模型则回答错误。PockEngine将每次微调过程的迭代时间从约7秒缩短到不到1秒,这是在NVIDIA Jetson Orin上的一个边缘GPU平台上实现的。

未来,研究人员希望使用PockEngine来微调更大的模型,以处理文本和图像的联合。

“这项工作解决了大型AI模型(如LLMs)在许多不同行业的各种应用中带来的不断增长的效率挑战。它不仅对于整合更大模型的边缘应用有希望,还可以降低在云中维护和更新大型AI模型的成本,”亚马逊人工智能总部的高级经理Ehry MacRostie说。他没有参与这项研究,但与MIT合作进行相关的人工智能研究,通过MIT-亚马逊科学中心进行合作。

这项工作得到了麻省理工学院-IBM沃森人工智能实验室、麻省理工学院人工智能硬件计划、麻省理工学院-亚马逊科学中心、美国国家科学基金会(NSF)和高通创新奖学金的部分支持。