深度学习算法可以在初期筛查时区分恶性结节和良性结节。
将深度学习算法与低剂量胸部CT结合使用,可以帮助放射科医生准确地评估患者的风险,确定肺结节是否为恶性。
低剂量CT(LDCT)可有效筛查长期吸烟者等肺癌高危人群,接受这些扫描的人数正在增加。但是,正确区分癌性结节和良性结节仍然是一项重大挑战,准确的评估至关重要,因为它们会决定治疗方案。
在5月18日发表于《放射学》上的一篇文章中,来自荷兰的研究人员分享了有关其人工智能(AI)工具的详细信息以及其在尽早发现受影响患者方面可能发挥的作用,该工具优于受过专业训练的放射科医师。
第一作者Kiran Vaidhya Venkadesh领导的团队表示:“我们成功开发了一种深度学习算法,用于评估在低剂量筛查CT时检测到的肺结节的恶性风险,该算法可在筛查人群和方案之间推广。”他是内梅亨大学医学中心诊断图像分析小组的博士候选人。“这种深度学习算法可以帮助放射科医生优化对接受肺癌筛查的参与者的随访建议,并可以减少不必要的诊断干预。”
它还有可能减少放射科医生的工作量并降低肺癌筛查的成本。
为了判断算法的性能,该团队将其结果与已建立并有效的泛加拿大(PanCan)肺癌早期检测模型以及11名临床医生(4名胸科放射科医生、5名放射科住院医生和2名肺科医生)的结果进行了比较。
在他们的回顾性研究中,他们使用深度学习开发了他们的算法,并用16077个结节的CT图像进行训练,其中包括1249个恶性肿瘤。这些图像是在2002年至2004年间从国家肺部筛查试验中收集的。他们使用来自丹麦肺癌筛查试验的三组成像数据验证了该算法:全部883个结节(65个恶性)的完整队列,以及两个大小匹配的癌变富集的队列(175个结节,59个恶性)和大小不匹配的肿瘤(177个结节,59个恶性)。
当Venkadesh的团队将算法的性能与现有的评估模型和临床医生的性能进行比较时,他们发现他们的算法远远优于两者。与PanCan模型相比,该算法实现的曲线下面积(AUC)为0.93,而前者为0.90。
该研究小组解释说:“算法只在大小匹配的癌症富集子集中明显优于PanCan模型。这表明,尽管结节大小仍然是恶性肿瘤的强大预测指标,但与PanCan模型相比,该算法的辨别力更依赖于成像特征。”
在具有随机良性结节(AUC 0.96对0.90)和大小匹配的良性结节(AUC 0.86对0.82)的癌症富集队列中,它的表现也优于胸腔放射科医生。
研究小组说,基于这些结果,该算法可以为临床环境带来诸多好处。放射科医生可以将可疑结节升级为Lung-RADS 4X类别,但是该算法不需要手动解释结节成像特征。 Radboud医学影像学助理教授,资深作者Colin Jacobs博士说,这有可能导致CT解释中观察者间的大量变异。
最终,该团队表示,他们认为这种算法将被用作放射科医生工作的支持工具。
该团队表示:“我们预计,在可靠的人工智能系统的帮助下,我们将需要训练有素的人类观察员,当肺癌筛查项目在全球推广时,这些人将成为胸部CT的第一读者。这种深度学习算法可以帮助放射科医生为正在接受肺癌筛查的参与者优化随访建议,并可以减少不必要的诊断干预措施。”
PanCan开发人员Martin C.Tammemägi,DVM,MSc博士在随附的社论中重申,需要一种能够区分恶性结节和良性结节的算法,以减轻提供者的工作量。他指出,Venkadesh的团队确实在过去的AI预测模型上进行了改进,展示了可喜的结果。但是,他警告不要过于强调AUC的成就。
“我提醒读者不要过度解读AUC。AUC通常被直接解释为预测准确性的衡量标准。”他解释说。“AUC不是一个百分比,AUC不衡量绝对分类精度,而是评估模型是否可以将大小写配对按照正确顺序的排序。”
他说,这使得算法校准变得至关重要。而且,考虑到该算法确实存在将恶性结节误认为良性,或将良性结节误认为恶性的情况,因此可能存在校准问题。
他说:“如果临床医生的判断受到(深度学习)算法的极端和错误评分的影响,可以想象,这会造成伤害。”
他说,尽管如此,该算法获得的相对较高的AUC确实表明它正在从非规模因素中获取有价值的预测信息。
但是,根据Venkadesh团队的说法,他们的工作尚未完成。
他们目前正在研究另一种算法,该算法在输入时使用多次CT检查,从而可能将其使用范围从最初或基线筛查扩展到随后的筛查,这将有助于将结节的生长和外观与先前的扫描进行比较。