由于机器学习模型可能给出错误的预测,研究人员通常会赋予它们告诉用户自己对某个决策有多自信的能力。这在高风险环境中尤为重要,例如当模型用于帮助识别医学图像中的疾病或筛选工作申请时。
但是,模型的不确定性量化只有在准确时才有用。如果一个模型说它有49%的自信认为一张医学图像显示胸腔积液,那么在49%的时间里,模型应该是正确的。
麻省理工学院的研究人员提出了一种可以改进机器学习模型的不确定性估计的新方法。他们的方法不仅比其他技术生成更准确的不确定性估计,而且效率更高。
此外,由于该技术具有可扩展性,因此可以应用于在医疗保健和其他安全关键环境中越来越多地部署的大型深度学习模型。
这种技术可以为缺乏机器学习专业知识的最终用户提供更好的信息,以确定是否信任模型的预测或是否应该将模型部署到特定任务中。
“很容易看到这些模型在它们非常擅长的场景中表现得非常好,然后假设它们在其他场景中也会同样出色。这使得推动这种寻求更好地校准这些模型的不确定性的工作尤为重要,以确保它们与人类对不确定性的概念相一致,”麻省理工学院的访问学生、多伦多大学的研究生和首席作者Nathan Ng说。
Ng与多伦多大学计算机科学助理教授Roger Grosse以及麻省理工学院电气工程与计算机科学系和医学工程科学研究所和信息与决策系统实验室的副教授Marzyeh Ghassemi合著了这篇论文。该研究将在国际机器学习会议上进行展示。
量化不确定性
不确定性量化方法通常需要复杂的统计计算,这些计算对于具有数百万参数的机器学习模型来说不易扩展。这些方法还要求用户对用于训练模型和数据的假设进行假设。
麻省理工学院的研究人员采取了不同的方法。他们使用了被称为最小描述长度原理(MDL)的方法,该方法不需要可能影响其他方法准确性的假设。MDL用于更好地量化和校准模型被要求标记的测试点的不确定性。
研究人员开发的技术被称为IF-COMP,它使MDL能够快速应用于许多实际环境中部署的大型深度学习模型。
MDL涉及考虑模型可能给出的测试点的所有可能标签。如果有许多适合该点的替代标签,那么模型对其选择的标签的自信度应相应减少。
“了解模型有多自信的一种方法是告诉它一些反事实的信息,看它有多可能相信你,”Ng说。
例如,考虑一个模型说一张医学图像显示胸腔积液。如果研究人员告诉模型这张图像显示水肿,并且它愿意更新自己的信念,那么模型对其原始决策的自信度应该降低。
使用MDL,如果模型在标记数据点时自信,它应该使用一个非常简短的代码来描述该点。如果模型对其决策感到不确定,因为该点可能有许多其他标签,它将使用一个较长的代码来捕捉这些可能性。
用于标记数据点的代码量被称为随机数据复杂度。如果研究人员询问模型在给出相反证据的情况下更新对数据点的信念的意愿,那么随机数据复杂度应该在模型自信时减少。
但是,使用MDL测试每个数据点将需要大量计算。
加速过程
通过IF-COMP,研究人员开发了一种近似技术,可以使用特殊函数(称为影响函数)准确估计随机数据复杂度。他们还采用了一种称为温度缩放的统计技术,可以改善模型输出的校准。影响函数和温度缩放的组合使得对随机数据复杂度进行高质量的近似成为可能。
最终,IF-COMP可以高效地产生能够反映模型真实自信度的校准不确定性估计。该技术还可以确定模型是否错误标记了某些数据点,或者揭示哪些数据点是异常值。
研究人员对他们的系统进行了三项任务的测试,并发现它比其他方法更快、更准确。
“确保模型校准良好非常重要,越来越需要检测特定预测看起来不太对的情况。随着我们使用大量未经审查的数据来制作将应用于面向人类问题的模型,审计工具在机器学习问题中变得越来越必要,”Ghassemi说。
IF-COMP是模型无关的,因此可以为许多类型的机器学习模型提供准确的不确定性估计。这使得它可以在更广泛的实际环境中部署,最终帮助更多从业者做出更好的决策。
“人们需要理解这些系统非常容易出错,可以随意编造。一个模型可能看起来非常自信,但是在有证据相反的情况下,它愿意相信很多不同的事情,”Ng说。
未来,研究人员有兴趣将他们的方法应用于大型语言模型,并研究最小描述长度原理的其他潜在用例。