研究:用于训练大型语言模型的数据集通常缺乏透明度

为了训练更强大的大型语言模型,研究人员使用了来自数千个网络来源的多样化数据的大型数据集集合。

但是,当这些数据集被组合和重新组合成多个集合时,关于它们的来源和使用限制的重要信息往往在这个过程中丢失或混淆。

这不仅引发了法律和伦理问题,还可能损害模型的性能。例如,如果一个数据集被错误分类,某人可能在为特定任务训练机器学习模型时,无意中使用了不适合该任务的数据。

此外,来自未知来源的数据可能包含偏见,导致模型在部署时做出不公平的预测。

为了提高数据透明度,来自麻省理工学院及其他地方的多学科研究团队对流行托管网站上的1800多个文本数据集进行了系统审计。他们发现,超过70%的数据集省略了一些许可信息,而大约50%的数据集包含错误的信息。

基于这些见解,他们开发了一种用户友好的工具,称为数据来源探索器,该工具自动生成易于阅读的数据集创建者、来源、许可证和允许使用的摘要。

“这些类型的工具可以帮助监管者和从业者在人工智能部署方面做出明智的决策,并进一步推动人工智能的负责任发展,”麻省理工学院教授、麻省理工学院媒体实验室人类动态组负责人、该项目新开放获取论文的合著者亚历克斯·“桑迪”·彭特兰德说。

数据来源探索器可以帮助人工智能从业者构建更有效的模型,使他们能够选择适合其模型预期用途的训练数据集。从长远来看,这可以提高人工智能模型在现实世界中的准确性,例如用于评估贷款申请或回应客户查询的模型。

“了解人工智能模型的能力和局限性的最佳方法之一是了解它所训练的数据。当你对数据的来源存在错误归属和混淆时,你就面临严重的透明度问题,”麻省理工学院人类动态组的研究生罗伯特·马哈里说,他也是该论文的共同首席作者之一,同时也是哈佛法学院的JD候选人。

马哈里和彭特兰德在论文中与共同首席作者谢恩·朗普雷(麻省理工学院媒体实验室的研究生)、领导AI研究实验室Cohere的萨拉·胡克,以及麻省理工学院、加州大学欧文分校、法国里尔大学、科罗拉多大学博尔德分校、奥林学院、卡内基梅隆大学、Contextual AI、ML Commons和Tidelift的其他研究人员共同合作。该研究今天在《自然机器智能》上发表

专注于微调

研究人员通常使用一种称为微调的技术来提高将用于特定任务(如问答)的大型语言模型的能力。为了微调,他们精心构建了旨在提升模型在这一特定任务上表现的策划数据集。

麻省理工学院的研究人员专注于这些微调数据集,这些数据集通常由研究人员、学术组织或公司开发,并针对特定用途进行许可。

当众包平台将这些数据集聚合成更大的集合供从业者用于微调时,原始许可信息往往会被遗留。

“这些许可证应该是重要的,并且应该是可执行的,”马哈里说。

例如,如果一个数据集的许可条款错误或缺失,某人可能会花费大量金钱和时间开发一个模型,但由于某些训练数据包含私人信息,可能被迫将其下架。

“人们可能会训练出他们甚至不了解其能力、关注点或风险的模型,而这些最终都源于数据,”朗普雷补充道。

为了开始这项研究,研究人员正式定义了数据来源,即数据集的来源、创建和许可遗产的组合,以及其特征。随后,他们开发了一种结构化审计程序,以追踪来自流行在线存储库的1800多个文本数据集集合的数据来源。

在发现超过70%的数据集包含“未指定”许可证,省略了许多信息后,研究人员向后工作以填补空白。通过他们的努力,他们将“未指定”许可证的数据集数量减少到约30%。

他们的工作还揭示,正确的许可证往往比存储库分配的许可证更具限制性。

此外,他们发现几乎所有数据集创建者都集中在全球北方,这可能限制模型的能力,如果它被训练用于在不同地区的部署。例如,由美国和中国的人主要创建的土耳其语言数据集可能不包含任何文化上重要的方面,马哈里解释道。

“我们几乎自欺欺人地认为这些数据集比实际更具多样性,”他说。

有趣的是,研究人员还观察到2023年和2024年创建的数据集的限制急剧增加,这可能是由于学术界对其数据集可能被用于意外商业目的的担忧所驱动。

用户友好的工具

为了帮助他人获取这些信息,而无需手动审计,研究人员构建了数据来源探索器。除了根据特定标准对数据集进行排序和过滤外,该工具还允许用户下载数据来源卡,提供数据集特征的简明、结构化概述。

“我们希望这不仅是理解现状的一步,也能帮助人们在未来做出更明智的选择,了解他们正在训练的数据,”马哈里说。

在未来,研究人员希望扩展他们的分析,以调查多模态数据(包括视频和语音)的数据来源。他们还希望研究作为数据来源的网站的服务条款如何在数据集中反映。

随着他们研究的扩展,他们还在与监管者联系,讨论他们的发现以及微调数据的独特版权影响。

“我们需要从一开始就确保数据来源和透明度,当人们创建和发布这些数据集时,以便让其他人更容易得出这些见解,”朗普雷说。

“许多提议的政策干预假设我们可以正确分配和识别与数据相关的许可证,而这项工作首先表明情况并非如此,然后显著改善可用的来源信息,”EleutherAI的执行董事斯特拉·比德曼说,她并未参与这项工作。“此外,第三节包含相关的法律讨论。这对那些没有足够大以拥有专门法律团队的公司的机器学习从业者来说非常有价值。许多希望为公共利益构建人工智能系统的人目前正在默默努力,试图弄清楚如何处理数据许可,因为互联网的设计并不容易让人弄清楚数据来源。”