当医生查看较深肤色的图像时,诊断疾病更加困难。

根据麻省理工学院的研究人员的一项新研究,当医生仅根据患者皮肤的图像来诊断皮肤病时,如果患者的皮肤较黑,医生的表现就不如患者皮肤较白的情况好。

这项研究包括了1000多名皮肤科医生和全科医生,发现皮肤科医生对他们看到的图像的准确性约为38%,但对显示较黑皮肤的图像的准确性仅为34%。总体准确性较低的全科医生在较黑皮肤的诊断准确性方面也有类似的下降。

研究团队还发现,人工智能算法的辅助可以提高医生的准确性,尽管在诊断较白皮肤的患者时改进更大。

尽管这是首项证明医生在皮肤色调上存在诊断差异的研究,但其他研究发现皮肤科教科书和培训材料中使用的图像主要是较白皮肤的。麻省理工学院团队表示,这可能是造成差异的一个因素,还可能是一些医生在治疗较黑皮肤的患者方面经验较少。

“可能没有医生有意对任何类型的人做得更差,但事实可能是你没有所有的知识和经验,因此在某些人群中,你可能做得更差,”西北大学凯洛格管理学院助理教授Matt Groh博士说道。“这是一种需要经验证据来帮助人们找出如何改变皮肤科教育政策的情况之一。”

这项研究的主要作者是Groh,该研究发表在《自然医学》杂志上,麻省理工学院媒体艺术与科学教授Rosalind Picard是该论文的高级作者。

几年前,由麻省理工学院Joy Buolamwini博士领导的一项研究发现,面部分析程序在预测较黑皮肤人的性别时错误率较高。这一发现激发了研究人员的兴趣,他们研究了AI模型和可能医生本身在诊断较黑皮肤上的困难,以及这些诊断能力是否可以改善。

“这似乎是一个很好的机会,可以确定是否存在社会问题,以及我们如何解决这个问题,还可以确定如何将AI辅助应用于医学决策,”Groh说。“我非常关注如何将机器学习应用于现实世界的问题,特别是如何帮助专家更好地完成工作。医学是一个人们做出非常重要决策的领域,如果我们能改善他们的决策能力,我们就能改善患者的结果。”

为了评估医生的诊断准确性,研究人员收集了来自皮肤科教科书和其他来源的364张图像,代表了多种皮肤色调的46种皮肤病。

这些图像中的大多数描绘了八种炎症性皮肤病,包括特应性皮炎、莱姆病和继发梅毒,以及一种罕见的称为皮肤T细胞淋巴瘤(CTCL)的癌症,它可能与炎症性皮肤病类似。其中许多疾病,包括莱姆病,可能在黑皮肤和白皮肤上呈现不同的症状。

研究团队通过医生社交网络网站Sermo招募了研究对象。总共有389名获得认证的皮肤科医生、116名皮肤科住院医生、459名全科医生和154名其他类型的医生参与了该研究。

研究参与者中的每个人都会看到其中10张图像,并被要求给出每张图像可能代表的三个疾病的前三个预测。他们还被问及是否会将患者转诊进行活检。此外,还询问了全科医生是否会将患者转诊给皮肤科医生。

“这与面对面的分诊不太一样,医生可以从不同角度检查皮肤并控制光线,”Picard说。“然而,对于在线分诊来说,皮肤图像更具可扩展性,并且很容易输入到机器学习算法中,该算法可以迅速估计可能的诊断。”

研究人员发现,皮肤科专家的准确率较高,不出所料:他们正确分类了38%的图像,而全科医生仅有19%。

这两个群体在尝试根据较黑皮肤的图像诊断皮肤病时,准确率都下降了约4个百分点,这是一个具有统计学意义的下降。皮肤科医生在较黑皮肤的CTCL图像上进行活检的可能性较低,但在非癌性皮肤病的活检方面更有可能进行活检。

“这项研究清楚地表明,在黑皮肤的皮肤病诊断中存在差异。这种差异并不令人意外;然而,我在文献中还没有看到如此强有力的证据。应该进行进一步的研究,以更准确地确定这种差异的原因和缓解因素,”加州大学旧金山分校皮肤色素项目主任、皮肤科副教授Jenna Lester说道,她没有参与该研究。

在评估医生独立表现之后,研究人员还给他们提供了额外的图像,让他们在研究人员开发的AI算法的辅助下进行分析。研究人员对这个算法进行了约3万张图像的训练,要求它将图像分类为大多数图像所代表的八种疾病之一,以及第九类“其他”。

这个算法的准确率约为47%。研究人员还创建了另一个版本的算法,其成功率人为提高到84%,以评估模型的准确性是否会影响医生采纳其建议的可能性。

“这使我们能够评估目前我们所能做到的最好的AI辅助模型以及可能在未来五年内更准确的AI辅助模型,这需要更好的数据和模型,”Groh说。

这两个分类器在浅色和深色皮肤上的准确性相同。研究人员发现,使用这两个AI算法,皮肤科医生(最高可达60%)和全科医生(最高可达47%)的准确性都有所提高。

他们还发现,医生在高准确率算法提供几个正确答案后更有可能采纳其建议,但他们很少采纳错误的AI建议。这表明医生在排除疾病方面非常熟练,不会采纳已经排除的疾病的AI建议,Groh说。

尽管使用AI辅助的皮肤科医生在查看浅色或深色皮肤的图像时显示出类似的准确性提高,但全科医生在浅色皮肤的图像上的改进要大于深色皮肤。

“这项研究不仅让我们看到了AI辅助的影响,还让我们看到了它在不同专业水平上的影响,”Groh说。“可能的原因是全科医生没有那么多经验,所以他们不知道是否应该排除一种疾病,因为他们对不同皮肤色调上的不同皮肤病的细节了解不够深入。”

研究人员希望他们的研究结果能够促使医学院和教科书加入更多关于较黑皮肤患者的培训。这些发现还可以帮助指导皮肤科的AI辅助程序的部署,目前许多公司正在开发这方面的技术。

该研究由麻省理工学院媒体实验室联盟和Harold Horowitz学生研究基金资助。