近年来,基于大数据预训练的多模态基础模型 (Foundation Model) 在
自然语言理解
和视觉
感知
方面展现出了前所未有的进展,在各领域中受到了广泛关注。在医疗领域中,由于其任务对领域专业知识的高度依赖和其本身细粒度的特征,通用基础模型在医疗领域的应用十分有限。因此,如何将医疗知识注入模型,提高基础模型在具体诊疗任务上的准确度与可靠性,是当前医学
人工智能
研究领域的热点。
人工智能
实验室联合团队探索了基于医学知识增强的基础模型预训练方法,发布了首个胸部 X-ray 的基础模型,即 KAD(Knowledge-enhanced Auto Diagnosis Model)。该模型通过在大规模医学影像与放射报告数据进行预训练,通过文本编码器对高质量医疗
知识图谱
进行隐空间嵌入,利用视觉 –
语言模型
联合训练实现了知识增强的
表征学习
。在不需要任何额外标注情况下,KAD 模型即可直接应用于任意胸片相关疾病的诊断,为开发
人工智能
辅助诊断的基础模型提供了一条切实可行的技术路线。
-
KAD 具有零样本(zero-shot)诊断能力,无需下游任务微调,展现出与专业医生相当的精度;
-
KAD 具有开放疾病诊断(open-set diagosis)能力,可应用于胸片相关的任意疾病诊断;
-
KAD 具有疾病定位能力,为模型预测提供可解释性。
-
论文链接:https://arxiv.org/pdf/2302.14042.pdf
-
代码模型链接:https://github.com/xiaoman-zhang/KAD
模型介绍
先验知识
引导基础模型预训练,第一阶段,该研究利用医学
知识图谱
训练一个文本知识编码器,对医学
知识库
在隐空间进行建模;第二阶段,该研究提出放射报告中提取医学实体和实体间关系,借助已训练的知识编码器来指导图像与文本对的视觉
表征学习
,最终实现了知识增强的模型预训练。具体流程如图 1 所示。
图 1:KAD 的模型架构
知识编码器
知识库
,如图 1a 所示;通过对比学习训练文本编码器,将医学知识注入模型,如图 1b 所示。
知识引导的视觉
表征学习
表征学习
。具体来说,如图 1c 所示,基于胸片 – 报告对的数据,首先进行实体提取,得到常见疾病的集合及其标签,该研究尝试了三种方法:基于 UMLS 启发式规则的实体提取、基于报告结构化工具 RadGraph 的实体提取以及基于 ChatGPT 的实体提取;在模型层面,该研究提出了基于 Transformer 架构的疾病
查询
网络(Disease Query Networks),以疾病名称作为
查询
(query) 输入,关注 (attend) 视觉特征以获得模型预测结果;在模型训练过程中,该研究联合优化图像 – 文本对比学习和疾病
查询
网络预测的多标签分类损失。
查询
的疾病名称,分别输入图像编码器和知识编码器,经过疾病
查询
网络,即可得到
查询
疾病的预测。同时可以通过疾病
查询
网络得到注意力图对病灶进行定位,增强模型的可解释性。
实验结果
数据库
。
(1) KAD 零样本诊断能力与专业放射科医生精度相当
图 2:KAD 在 CheXpert 数据集上与基线模型以及放射科医生的比较
(2) KAD 零样本诊断能力与全监督模型相当,支持开放集疾病诊断
Microsoft
发布的 BioVIL [6],Stanford 发布的 CheXzero [7]),与全监督模型 (
CheXNet
[8]) 相当。此外,全监督的模型的应用范围受限于封闭的训练类别集合,而 KAD 可以支持任意的疾病输入,在 PadChest 的 177 个未见类别的测试中,有 31 类 AUC 达到 0.900 以上,111 类 AUC 达到 0.700 以上,如图 3b 所示。
图 3:KAD 在 PadChest 数据集上与基线模型的比较
(3) KAD 具有疾病定位能力,为模型预测提供可解释性
人工智能
辅助医疗的作用同样关键,能够有效帮助临床医生理解
人工智能
算法的判断依据。在 ChestXDet10 数据集上对 KAD 的定位能力进行了定量分析与定性分析。如图 4 所示,KAD 的定位能力显著优于基线模型。图 5 中,红色方框为放射科医生提供的标注,高亮区域为模型的热力图,从中可以看出模型所关注的区域往往能与医生标注区域对应上,随着输入图像的分辨率增加,模型的定位能力也显著增强。
图 4: KAD 在 ChestXDet10 数据集上与基线模型的比较
图 5:KAD 的定位结果可视化
总结
表征学习
方法不局限于胸部 X-ray,期待其能够进一步迁移到医疗中不同的器官、模态上,促进医疗基础模型在临床的应用和落地。
机器之心
读者交流群。
References
[1] Johnson, A.E., Pollard, T.J., Berkowitz, S.J., Greenbaum, N.R., Lungren, M.P., Deng, C.-y., Mark, R.G., Horng, S.: Mimic-cxr, a de-identified publicly available database of chest radiographs with free-text reports. Scientific data 6 (1), 1–8 (2019)
[2] Irvin, J., Rajpurkar, P., Ko, M., Yu, Y., Ciurea-Ilcus, S., Chute, C., Marklund, H., Haghgoo, B., Ball, R., Shpanskaya, K., et al.: Chexpert: A large chest radiograph dataset with uncertainty labels and expert comparison. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, pp. 590–597 (2019)
[3] Bustos, A., Pertusa, A., Salinas, J.-M., de la Iglesia-Vay´a, M.: Padchest: A large chest x-ray image dataset with multi-label annotated reports. Medical image analysis 66, 101797 (2020)
[4] Wang, X., Peng, Y., Lu, L., Lu, Z., Bagheri, M., Summers, R.M.: Chestx-ray8: Hospital-scale chest x-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2097–2106 (2017)
[5] Liu, J., Lian, J., Yu, Y.: ChestX-Det10: Chest X-ray Dataset on Detection of Thoracic Abnormalities (2020)
[6] Boecking, B., Usuyama, N., Bannur, S., Castro, D.C., Schwaighofer, A., Hyland, S., Wetscherek, M., Naumann, T., Nori, A., Alvarez-Valle, J., et al.: Making the most of text semantics to improve biomedical visionlanguage processing. In: European Conference on Computer Vision, pp. 1–21 (2022).
[7] Tiu, E., Talius, E., Patel, P., Langlotz, C.P., Ng, A.Y., Rajpurkar, P.: Expertlevel detection of pathologies from unannotated chest x-ray images via selfsupervised learning. Nature Biomedical Engineering, 1–8 (2022).
[8] Rajpurkar, P., Irvin, J., Zhu, K., Yang, B., Mehta, H., Duan, T., Ding, D., Bagul, A., Langlotz, C., Shpanskaya, K. and Lungren, M.P., 2017. Chexnet: Radiologist-level pneumonia detection on chest x-rays with deep learning. arXiv preprint arXiv:1711.05225.
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...