自然语言通过上下文和语法传达思想、行动、信息和意图;此外,数据库中包含大量自然语言。这使得它成为训练机器学习系统的优秀数据来源。麻省理工学院(MIT)6A MEng论文项目的两位工程硕士生Irene Terpstra ’23和Rujul Gandhi ’22正在与MIT-IBM Watson AI实验室的导师合作,利用自然语言的这种力量来构建AI系统。
随着计算机技术的不断发展,研究人员正在努力改进硬件;这意味着创新以创建新的计算机芯片。由于已经有关于如何进行修改以实现特定参数和性能的文献可供参考,Terpstra及其导师和顾问Anantha Chandrakasan(MIT工程学院院长,Vannevar Bush电气工程和计算机科学教授)以及IBM的研究员Xin Zhang正在开发一种辅助芯片设计的AI算法。
“我正在创建一个工作流程,系统地分析这些语言模型如何帮助电路设计过程。它们具有什么推理能力,如何将其整合到芯片设计过程中?”Terpstra说。“然后在另一方面,如果证明它足够有用,[我们将]看看它们是否能自动设计芯片,将其连接到强化学习算法。”
为了实现这一目标,Terpstra的团队正在创建一个可以迭代不同设计的AI系统。这意味着使用各种预训练的大型语言模型(如ChatGPT、Llama 2和Bard),使用一种名为NGspice的开源电路模拟器语言,该语言以代码形式包含芯片的参数,以及一个强化学习算法。研究人员将能够通过文本提示查询如何修改物理芯片以实现语言模型中的某个目标,并提供调整指导。然后,这些信息将传递给强化学习算法,更新电路设计并输出芯片的新物理参数。
“最终的目标是将这些大型语言模型中内置的推理能力和知识库与强化学习算法的优化能力相结合,让它们设计芯片本身,”Terpstra说。
Rujul Gandhi则直接处理原始语言。作为麻省理工学院的本科生,Gandhi在语言学和计算机科学方面进行了探索,并将它们结合到她的MEng工作中。“我一直对人与人之间以及人与计算机之间的交流感兴趣,”Gandhi说。
机器人或其他交互式AI系统是需要人机双方理解的领域之一。研究人员通常使用形式逻辑为机器人编写指令。这有助于确保命令的安全执行,但形式逻辑对用户来说可能很难理解,而自然语言则更容易理解。为了确保这种顺畅的交流,Gandhi及其导师IBM的Yang Zhang和麻省理工学院助理教授Chuchu Fan正在构建一个解析器,将自然语言指令转换为机器友好的形式。利用预训练的编码器-解码器模型T5所编码的语言结构,并使用一组用于执行特定任务的基本英语命令的注释数据集,Gandhi的系统识别给定指令中存在的最小逻辑单元或原子命题。
“一旦给出指令,模型就会识别出您希望它执行的所有较小子任务,”Gandhi说。“然后,使用大型语言模型,可以将每个子任务与机器人世界中可用的操作和对象进行比较,如果由于某个对象未被识别或某个操作不可行而无法执行任何子任务,系统可以立即停止并向用户寻求帮助。”
将指令分解为子任务的这种方法还使她的系统能够理解英语中表达的逻辑依赖关系,例如“在事件Y发生之前执行任务X。”Gandhi使用了一组涵盖导航和操作等机器人任务领域的逐步说明数据集,重点关注家庭任务。她说,使用人们之间交流方式编写的数据具有许多优势,因为这意味着用户在表达指令时可以更加灵活。
Gandhi的另一个项目涉及开发语音模型。在语音识别的背景下,有些语言被认为是“低资源”语言,因为它们可能没有大量的转录语音可用,或者根本没有书面形式。“我申请加入麻省理工学院-IBM Watson AI实验室的实习的原因之一就是对低资源语言的语言处理感兴趣,”她说。“今天的许多语言模型都是非常数据驱动的,当很难获取所有这些数据时,就需要有效地使用有限的数据。”
语音只是一串声波,但人类在对话中可以轻松确定单词和思想的起止位置。在语音处理中,人类和语言模型都使用其现有的词汇来识别单词边界并理解其含义。在低资源或无资源语言中,可能根本不存在书面词汇,因此研究人员无法为模型提供词汇。相反,模型可以注意到哪些声音序列比其他声音序列更频繁地出现在一起,并推断出这些可能是单词或概念。在Gandhi的研究小组中,这些推断出的单词然后被收集到一个伪词汇中,该伪词汇用作低资源语言的标记方法,为进一步的应用创建了带标签的数据。
Gandhi说,语言技术的应用“几乎无处不在”。她说:“您可以想象人们能够用自己的母语、方言与软件和设备进行交互。您可以想象改进我们使用的所有语音助手。您可以想象它被用于翻译或口译。”