3个问题:我们是否应该像给处方药一样给AI系统贴标签?

人工智能系统越来越多地被应用于安全关键的医疗保健场景。然而,这些模型有时会产生错误的信息、做出有偏见的预测,或因意想不到的原因失败,这可能对患者和临床医生造成严重后果。

在今天发表的《自然计算科学》评论文章中,麻省理工学院副教授Marzyeh Ghassemi和波士顿大学副教授Elaine Nsoesie认为,为了减轻这些潜在的危害,人工智能系统应配备负责任使用标签,类似于美国食品和药物管理局对处方药所要求的标签。

麻省理工学院新闻与Ghassemi讨论了这种标签的必要性、它们应传达的信息以及如何实施标签程序。

问:为什么我们需要在医疗保健环境中为人工智能系统提供负责任的使用标签?

答:在医疗环境中,我们面临一个有趣的情况,医生往往依赖于技术或治疗,而这些技术或治疗并不完全被理解。有时这种缺乏理解是根本性的——例如对对乙酰氨基酚的机制——但其他时候这只是专业化的局限性。例如,我们并不期望临床医生知道如何维护MRI机器。相反,我们通过FDA或其他联邦机构建立了认证系统,认证医疗设备或药物在特定环境中的使用。

重要的是,医疗设备也有服务合同——如果MRI机器校准不当,制造商的技术人员会来修理。对于批准的药物,有市场后监测和报告系统,以便在许多人服用某种药物时似乎出现某种疾病或过敏反应时进行处理。

模型和算法,无论是否包含人工智能,都规避了许多这些批准和长期监测过程,这一点我们需要保持警惕。许多先前的研究表明,预测模型需要更仔细的评估和监测。特别是对于最近的生成性人工智能,我们引用的研究表明,生成的内容并不保证是适当、稳健或无偏的。由于我们对模型预测或生成没有相同级别的监测,因此更难以发现模型的问题响应。目前医院使用的生成模型可能存在偏见。拥有使用标签是确保模型不会自动化从人类实践者或过去的错误临床决策支持评分中学习到的偏见的一种方式。

问:您的文章描述了负责任使用标签的几个组成部分,遵循FDA创建处方标签的方法,包括批准的使用、成分、潜在副作用等。这些标签应传达哪些核心信息?

答:标签应明确的内容包括模型的预期使用的时间、地点和方式。例如,用户应知道模型是在特定时间用特定时间点的数据进行训练的。例如,它是否包含了Covid-19大流行期间的数据?在Covid期间的健康实践非常不同,这可能会影响数据。这就是为什么我们主张披露模型的“成分”和“完成的研究”。

关于地点,我们从先前的研究中知道,在一个地点训练的模型在转移到另一个地点时往往表现更差。了解数据来源以及模型在该人群中如何优化,可以帮助确保用户意识到“潜在副作用”、“任何警告和预防措施”以及“不良反应”。

对于一个训练来预测某个结果的模型,了解训练的时间和地点可以帮助你对部署做出明智的判断。但许多生成模型非常灵活,可以用于多种任务。在这里,时间和地点可能不那么具有信息性,关于“标签条件”和“批准使用”与“未批准使用”的更明确的指导变得重要。如果开发者评估了一个生成模型,用于读取患者的临床记录并生成前瞻性的账单代码,他们可以披露该模型对特定条件的过度收费或对其他条件的低估偏见。用户不希望使用同一个生成模型来决定谁可以转诊给专家,尽管他们可以。这种灵活性就是我们主张提供关于模型使用方式的更多细节的原因。

一般来说,我们主张你应该训练尽可能好的模型,使用可用的工具。但即便如此,也应该有大量的披露。没有任何模型是完美的。作为一个社会,我们现在明白,没有任何药物是完美的——总是存在某种风险。我们应该对人工智能模型有同样的理解。任何模型——无论是否使用人工智能——都是有限的。它可能会给你提供现实的、经过良好训练的潜在未来预测,但要适度看待。

问:如果实施人工智能标签,谁来进行标签,标签将如何监管和执行?

答:如果你不打算让你的模型在实践中使用,那么你为高质量研究出版物所做的披露就足够了。但一旦你打算在面向人类的环境中部署你的模型,开发者和部署者应根据一些既定框架进行初步标签。在部署之前应对这些声明进行验证;在医疗保健等安全关键的环境中,许多卫生与公共服务部的机构可能会参与其中。

对于模型开发者,我认为知道你需要标注系统的局限性会促使对过程本身进行更仔细的考虑。如果我知道在某个时刻我将不得不披露模型训练所用的人群,我就不想披露它仅仅是基于男性聊天机器人用户的对话进行训练的。

考虑数据收集对象、时间段、样本大小以及你决定包含或排除哪些数据的方式,可以让你意识到在部署时可能出现的问题。