用于检测异常的胸部X光图像的深度学习系统

描述

在医学成像中应用机器学习 (ML),为改善胸部 X 光 (CXR) 图像解读的可用性、延迟时间、准确率和一致性提供了绝佳的机会。事实上,我们已经开发了大量的算法来检测如肺癌、肺结核和气胸等特定疾病。然而,由于这些算法是被训练用于检测特定疾病,其在普遍临床环境下的实用性可能会受到限制,因为这种环境下可能会出现各种各样的异常情况。例如,我们无法通过气胸检测算法发现癌症结节,而肺结核检测算法可能也无法识别肺炎特有的症状。由于初始分诊步骤是确定 CXR 是否包含相关的异常,如果能使用一种通用算法,以识别包含任何异常情况的 X 光图像,即可大大简化工作流。然而,由于在 CXR 上出现的异常情况种类繁多,开发能识别所有异常情况的分类算法可谓充满挑战。

我们发表于《科学报告》的“深度学习用于区分正常和异常胸部放射照片,并泛化到两种未知疾病:结核病与新冠肺炎 (Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19)”一文中提出了一个模型,该模型可以在多个去识别化的数据集和环境中区分正常和异常的 CXR。我们发现,该模型在检测一般的异常情况以及结核病和新冠肺炎等未知病例方面表现良好。我们还针对公开可用的 ChestX-ray14 数据集发布了本研究中用到的测试集的放射科医生标签集[1]。

深度学习用于区分正常和异常胸部放射照片,并泛化到两种未知疾病:结核病与新冠肺炎

https://www.nature.com/articles/s41598-021-93967-2

用于检测异常的胸部 X 光图像的深度学习系统

我们使用基于 EfficientNet-B7 架构的深度学习系统,且在 ImageNet 上进行了预训练。我们使用来自印度阿波罗医院的 20 多万张去识别化 CXR 来训练该模型。通过使用基于正则表达式的自然语言处理方法,我们在相关的放射学报告中为每张 CXR 分配“正常”或“异常”标签。

EfficientNet-B7

https://github.com/tensorflow/tpu/tree/r1.15/models/official/efficientnet

ImageNet

https://arxiv.google.cn/abs/1409.0575

为评估该系统在新问诊者群体中的普及程度,我们在两个由大量异常情况组成的数据集中比较了其性能:阿波罗医院数据集的测试分块 (DS-1),以及公开可用的 ChestX-ray14 (CXR-14)。一群获美国职业认证的放射科医生为此项目对两个测试集的标签进行了注释。该系统在 DS-1 和 CXR-14 上的接收者操作特征曲线下面积 (Receiver operating characteristic) (AUROC) 分别达到了 0.87 和 0.94(数字越高越好)。

尽管对 DS-1 和 CXR-14 的评估中包含多种异常情况,不过出现的用例可能是在全新或未知的环境(未知疾病)中利用这样的异常检测算法。为评估该系统对新问诊者群体和训练集中未知疾病的通用性,我们使用了来自三个国家(地区)的四个去识别化数据集,包括两个公开可用的结核病数据集和两个来自 Northwestern Medicine 的新冠肺炎数据集。该系统在检测结核病时曲线下面积达到了 0.95 至 0.97;在检测新冠肺炎时曲线下面积达到了 0.65 至 0.68。由于对这些疾病呈现阴性的 CXR 仍可能包含其他相关异常情况,我们进一步对该系统检测异常(而不是检测疾病为阳性或阴性)的能力进行评估,发现结核病数据集的曲线下面积为 0.91 至 0.93,新冠肺炎数据集的曲线下面积为 0.86。

检测新冠肺炎的表现大幅下降是因为许多被系统标记为“阳性”的异常病例对于新冠肺炎来说呈现阴性,但仍需要注意,其中可能包含异常 CXR 结果。这进一步突显了异常检测算法的作用,尤其是在特定疾病模型可用的情况下。

此外需要注意的是,泛化到未知疾病(即结核病和新冠肺炎)和泛化到未知 CXR 结果(例如胸腔积液 、实变 /浸润)之间存在差别。在此项研究中,我们证明了该系统在检测未知疾病方面的通用性,但对于未知 CXR 结果则不具有通用性。

临床方面的潜在优势

为了解深度学习模型在改善临床工作流方面的潜在实用性,我们模拟了在病例优先级方面该模型的应用,即“加急”异常病例,并将其放置在正常病例之前。在上述模拟操作中,系统将异常病例的周转时间减少了 28%。通过这种设置,我们可以重新确定优先级,将复杂的异常病例转交给心胸专科放射科医生,从而对可能需要紧急决策的病例进行快速分类,并有机会通过简化审查的方式对阴性 CXR 进行批量审查。

此外,我们发现该系统可以作为预训练模型来优化胸部 X 光片的其他 ML 算法,尤其是在数据有限的情况下。例如,我们在最近的研究中使用了正常/异常分类算法,以根据胸部 X 光片检测肺结核。在专业放射科医生或分子检测技术等资源匮乏的地区,异常情况和结核病的检测算法可以在初期诊断中发挥关键作用。

分享改进后的参考标准标签

要发挥 ML 的潜力,以在世界范围内辅助解读胸部 X 光片,我们还有很多工作要做。具体来说,在去识别化的数据上获得高质量标签可能是在医疗领域开发和评估 ML 算法的一个重要障碍。为了加速努力进程,我们通过发布在本研究中用到的标签,对之前发布的标签进行扩展,并将其用于公开可用的 ChestX-ray14 数据集。我们期待着社区在该领域开展未来的机器学习项目。

责任编辑:haq

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分