胰腺癌的第一个有记录的病例可以追溯到18世纪。从那时起,研究人员开始了一场漫长而艰难的追求,以了解这种难以捉摸且致命的疾病。迄今为止,早期干预仍然是最好的癌症治疗方法。不幸的是,胰腺位于腹部深处,对于早期检测来说特别难以捕捉。
麻省理工学院计算机科学与人工智能实验室(CSAIL)的科学家们与贝斯以色列医学中心(BIDMC)放射肿瘤科的工作人员Limor Appelbaum一起,急于更好地识别潜在的高风险患者。他们着手开发两个机器学习模型,用于早期检测胰腺导管腺癌(PDAC),这是最常见的胰腺癌形式。为了获得广泛而多样化的数据库,团队与一个联邦网络公司合作,使用来自美国各个机构的电子健康记录数据。这个庞大的数据池有助于确保模型的可靠性和普适性,使其适用于各种人群、地理位置和人口群体。
这两个模型——“PRISM”神经网络和逻辑回归模型(一种概率统计技术)——优于当前的方法。团队的比较显示,标准筛查标准使用五倍较高的相对风险阈值仅能识别约10%的PDAC病例,而Prism在相同的阈值下可以检测到35%的PDAC病例。
使用人工智能来检测癌症风险并不是一种新现象——算法分析乳腺X线照片、肺癌CT扫描,并协助分析宫颈抹片检查和人乳头瘤病毒(HPV)检测等应用。麻省理工学院电气工程和计算机科学(EECS)博士生、麻省理工学院CSAIL成员、这项新工作的第一作者Kai Jia表示:“PRISM模型在超过500万患者的广泛数据库上的开发和验证使其在该领域的大多数先前研究规模上有所突出。该模型使用常规临床和实验室数据进行预测,美国人口的多样性是与其他PDAC模型相比的重要进展,其他模型通常局限于特定地理区域,如美国的几个医疗中心。此外,在训练过程中使用独特的正则化技术增强了模型的普适性和可解释性。”
“这份报告概述了使用大数据和人工智能算法来改进我们对癌症风险概况的方法,”哈佛医学院教授、贝斯以色列医学中心癌症中心主任和血液学和血液恶性肿瘤主任David Avigan说道,他没有参与这项研究。“这种方法可能导致新的策略,用于识别高风险恶性肿瘤患者,这些患者可能从有针对性的筛查中受益,并有可能进行早期干预。”
棱镜视角
PRISM的开发之旅始于六年多前,受到对当前诊断实践局限性的亲身经历的推动。资深作者Appelbaum表示:“大约80-85%的胰腺癌患者在晚期被诊断出来,治愈已不再是一个选择。”她还是哈佛医学院的讲师和放射肿瘤学家。“这种临床上的挫败感激发了我们利用电子健康记录(EHRs)中可用的大量数据的想法。”
CSAIL小组与Appelbaum的密切合作使得更好地理解医学和机器学习问题的结合成为可能,最终导致了一个更准确和透明的模型。“假设是这些记录中包含了隐藏的线索——胰腺癌的早期预警信号,这些信号可能是微妙的迹象和症状,”她补充道。“这指导了我们在开发这些模型时使用联邦EHR网络的方法,以实现在医疗保健中部署风险预测工具的可扩展方法。”
PrismNN和PrismLR模型都分析EHR数据,包括患者的人口统计学数据、诊断结果、药物治疗和实验室结果,以评估PDAC风险。PrismNN使用人工神经网络来检测年龄、病史和实验室结果等数据特征中的复杂模式,得出PDAC可能性的风险评分。PrismLR使用逻辑回归进行简单分析,根据这些特征生成PDAC的概率评分。这两个模型共同对相同的EHR数据进行了不同方法的全面评估,以预测PDAC风险。
团队指出,获得医生的信任的一个重要因素是更好地理解模型的工作原理,这在该领域被称为可解释性。科学家们指出,虽然逻辑回归模型本质上更容易解释,但最近的进展使得深度神经网络在一定程度上更加透明。这有助于团队将从单个患者的EHR中得出的数千个潜在预测特征精炼为约85个关键指标。这些指标包括患者年龄、糖尿病诊断和频繁就医次数的增加,这些指标是模型自动发现的,但与医生对胰腺癌相关风险因素的理解相匹配。
前进的道路
尽管PRISM模型有着巨大的潜力,但与所有研究一样,其中的一些部分仍然在不断改进中。目前,模型仅使用美国的数据,需要进行测试和适应以适用于全球范围。团队指出,未来的道路包括将模型的适用性扩展到国际数据集,并整合更多的生物标志物以进行更精细的风险评估。
“我们的下一个目标是促进这些模型在常规医疗保健环境中的实施。我们的愿景是让这些模型在医疗保健系统的后台无缝运行,自动分析患者数据,并在高风险病例中提醒医生,而不会增加他们的工作量,”Jia说。“与EHR系统集成的机器学习模型可以为医生提供早期警报,以便在症状出现之前对高风险患者进行干预。我们渴望将我们的技术应用于现实世界,帮助所有人享受更长寿命、更健康的生活。”
Jia与Applebaum和麻省理工学院EECS教授、CSAIL首席研究员Martin Rinard共同撰写了这篇论文,他们都是该论文的资深作者。在麻省理工学院CSAIL期间,研究人员得到了国防高级研究计划局、波音公司、美国国家科学基金会和Aarno Labs的部分支持。TriNetX为该项目提供了资源,预防癌症基金会也支持了该团队。