机器学习模型在尝试对在其训练数据集中代表性不足的个体进行预测时可能会失败。
例如,一个预测慢性病患者最佳治疗方案的模型可能是使用主要包含男性患者的数据集进行训练的。当该模型在医院部署时,可能会对女性患者做出错误的预测。
为了改善结果,工程师可以尝试通过删除数据点来平衡训练数据集,直到所有子群体得到平等代表。尽管数据集平衡是有前景的,但它通常需要删除大量数据,从而损害模型的整体性能。
麻省理工学院的研究人员开发了一种新技术,识别并删除训练数据集中对模型在少数群体上失败贡献最大的特定数据点。通过删除远少于其他方法的数据点,这种技术在提高模型对代表性不足群体的性能的同时,保持了模型的整体准确性。
此外,该技术还可以识别缺乏标签的训练数据集中的隐藏偏见来源。对于许多应用来说,无标签数据的存在远比有标签数据普遍。
这种方法还可以与其他方法结合,以提高在高风险情况下部署的机器学习模型的公平性。例如,它可能在未来帮助确保代表性不足的患者不会因偏见的人工智能模型而被误诊。
“许多其他试图解决这个问题的算法假设每个数据点的重要性与其他数据点相同。在这篇论文中,我们展示了这一假设并不成立。我们的数据集中有特定的数据点在导致这种偏见,我们可以找到这些数据点,删除它们,从而获得更好的性能,”麻省理工学院电气工程与计算机科学(EECS)研究生Kimia Hamidieh说,她是这项技术的共同首席作者之一,在这方面的论文中进行了详细阐述。
她与共同首席作者Saachi Jain博士(2024届)和EECS研究生Kristian Georgiev;斯坦福大学的Stein Fellow Andrew Ilyas(2018届硕士,2023届博士);以及高级作者Marzyeh Ghassemi(EECS副教授,医学工程科学研究所和信息与决策系统实验室成员)和Aleksander Madry(麻省理工学院Cadence Design Systems教授)共同撰写了这篇论文。该研究将在神经信息处理系统会议上进行展示。
删除不良示例
通常,机器学习模型是使用从互联网上收集的巨大数据集进行训练的。这些数据集过于庞大,无法手动仔细策划,因此可能包含损害模型性能的不良示例。
科学家们还知道,某些数据点对模型在某些下游任务上的性能影响大于其他数据点。
麻省理工学院的研究人员将这两个想法结合起来,提出了一种识别和删除这些问题数据点的方法。他们试图解决一个称为最差群体错误的问题,即当模型在训练数据集中的少数群体上表现不佳时发生的情况。
研究人员的新技术基于他们之前的工作,在该工作中,他们引入了一种名为TRAK的方法,该方法识别特定模型输出的最重要训练示例。
对于这项新技术,他们利用模型对少数群体的错误预测,并使用TRAK识别哪些训练示例对该错误预测贡献最大。
“通过以正确的方式聚合这些关于不良测试预测的信息,我们能够找到训练中导致整体最差群体准确性下降的特定部分,”Ilyas解释道。
然后,他们删除这些特定样本,并在剩余数据上重新训练模型。
由于拥有更多数据通常会带来更好的整体性能,因此仅删除导致最差群体失败的样本可以保持模型的整体准确性,同时提高其在少数群体上的性能。
更易于访问的方法
在三个机器学习数据集中,他们的方法优于多种技术。在一个实例中,它在删除约20,000个训练样本时提高了最差群体的准确性,远少于传统的数据平衡方法。他们的技术还实现了比需要对模型内部工作进行更改的方法更高的准确性。
由于麻省理工学院的方法涉及更改数据集,因此对从业者来说更易于使用,并且可以应用于多种类型的模型。
当训练数据集中的子群体未标记时,它也可以在偏见未知的情况下使用。通过识别对模型正在学习的特征贡献最大的数据显示,他们可以理解模型用于做出预测的变量。
“这是任何人在训练机器学习模型时都可以使用的工具。他们可以查看这些数据点,看看它们是否与他们试图教给模型的能力一致,”Hamidieh说。
使用该技术检测未知子群体偏见需要对要寻找的群体有直觉,因此研究人员希望通过未来的人类研究来验证并更全面地探索它。
他们还希望提高其技术的性能和可靠性,并确保该方法对可能在现实环境中部署的从业者易于访问和使用。
“当你拥有能够让你批判性地审视数据并找出哪些数据点会导致偏见或其他不良行为的工具时,这为构建更公平和更可靠的模型迈出了第一步,”Ilyas说。
这项工作部分由国家科学基金会和美国国防高级研究计划局资助。