所见，所问，所答：上海交大&上海AI Lab发布最新医疗多模态问答框架PMC-VQA

1,800 0

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

是上海交通大学与上海人工智能实验室联合团队PMC系列的最新研究成果，该研究聚焦视觉指令微调，发表大规模医学视觉问答数据集PMC-VQA与首个医学视觉指令微调模型MedVInT。

论文链接：https://arxiv.org/pdf/2305.10415.pdf

代码链接：https://github.com/xiaoman-zhang/PMC-VQA

PMC-VQA Dataset: https://huggingface.co/datasets/xmcmic/PMC-VQA

Huggingface Model: https://huggingface.co/xmcmic/MedVInT-TE

研究背景

近期大语言模型在各种自然语言处理任务中都取得了显著进展，如问题解答、文本分类和交互对话。近期 Google & DeepMind 发表在 Nature 上的 Med-PaLM进一步展示了大语言模型在医疗领域的应用潜力，在医学理解、知识检索和推理方面等问题上取得了优异的性能。

然而，医学领域的问题显然是多模态的，当前对多模态的基础模型的研究，面临着数据，模型，训练与评测方方面面的挑战。我们首先从数据入手提出了PMC-OA，一个从科学文献中构建高质量医疗多模态数据集数据集，进一步的针对多模态基础模型的评测问题，我们关注于医学视觉问答任务（MedVQA），提出了PMC-VQA，包含227k的视觉问答对，是当前医疗领域模态最多，数据规模最大的多模态问答数据集（如图1所示）。

所见，所问，所答：上海交大&上海AI Lab发布最新医疗多模态问答框架PMC-VQA

图1：现有医疗视觉问答数据集汇总，展示了PMC-VQA数据集的规模以及模态的丰富性

数据集介绍

PMC-VQA是在我们之前提出的PMC-OA数据集[1]的基础上构建的，所用到的是从2.5M的科学文献中收集了381K的医疗图文对，我们根据图像对应的标题，通过prompt ChatGPT构建对应的问答对（见图4b），再进行进一步的筛选以得到。

PMC-VQA数据集共包含227k视觉问答对，对应约149k的图像，其中图像可能为单图，也可能为多张图像的组合。图2为PMC-VQA数据集示例，与以往的医疗视觉问答数据集不同的是，PMC-VQA的答案不是一个固定的集合，我们每个问题都提供了正确答案和另外三个选项。这样基于PMC-VQA数据集，模型可以做

生成式的视觉问答(Open-ended)

以及

选择题的视觉问答(Multiple Choice)

。

所见，所问，所答：上海交大&上海AI Lab发布最新医疗多模态问答框架PMC-VQA

图2：MedVInT模型架构图以及PMC-VQA生成过程

图3进一步地展示了PMC-VQA数据集问题的多样性。图4展示了PMC-VQA数据的分布。

所见，所问，所答：上海交大&上海AI Lab发布最新医疗多模态问答框架PMC-VQA

图3：PMC-VQA数据集的问题分布

所见，所问，所答：上海交大&上海AI Lab发布最新医疗多模态问答框架PMC-VQA

图3：PMC-VQA数据集的问题和答案的长度分布

任务介绍

Multi-choice MedVQA

对于每个问题，提供四个候选答案作为提示，训练模型从中选出正确答案(A/B/C/D)。具体来说，模型的输入为 “Question: q, the options are: a1, a2, a3, a4, the answer is:”，ai为第i个选项。

Open-ended MedVQA

对于每个问题，不提供选项输入，训练模型根据图像和问题直接生成对应的答案。具体来说，模型的输入为 “Question: q, the answer is:”, 预期的输出出为ai，即正确答案。

模型介绍

现有的MedVQA的方法通常将该问题视为一个在有限答案集合上的检索任务，并以对比或分类为目标来训练模型，所以这些方法仅适用于事先提供答案集合的情况。PMC-VQA为领域探索开放式生成视觉问答提供了可能性，我们也基于PMC-VQA，提出了首个开放式的多模态问答模型MedVInT，该模型能够处理临床实践中出现的各种问题，以自由文本的形式生成答案。

模型结构

我们针对encoder-based和decoder-based的两种语言模型结构提出了两种变体，包括MedVInT-TE和MedVInT-TD。模型主要有三个部分组成，视觉编码器，文本编码器以及多模态解码器。

对于

encoder-based

的语言模型，直接对输入的文本进行编码得到文本特征，与视觉特征合并后作为多模态解码器的输出。

对于

decoder-based

的语言模型，文本编码器和多模态解码器则分别为语言模型的embedding layer和其他部分，对输入的问题进行编码后与视觉特征合并，输入多模态解码器。

所见，所问，所答：上海交大&上海AI Lab发布最新医疗多模态问答框架PMC-VQA

图4：MedVInT模型架构图以及PMC-VQA生成过程

实验结果

MedVInT在PMC-VQA上训练的结果如表1所示，我们可以看到现有的自然图像上的多模态模型基本不具有医疗视觉问答能力，可见针对医疗领域构造医疗多模态基础模型的重要性。

所见，所问，所答：上海交大&上海AI Lab发布最新医疗多模态问答框架PMC-VQA

图4：MedVInT模型架构图以及PMC-VQA生成过程

此外，我们将PMC-VQA训练后的MedVInT在已有的MedVQA数据集上进行训练，MedVInT在已有的MedVQA数据集上超过了现有SOTA的方法。

所见，所问，所答：上海交大&上海AI Lab发布最新医疗多模态问答框架PMC-VQA

表2：MedVInT在VQA-RAD和SLAKE数据集上的测试结果

References

[1] Weixiong Lin, Ziheng Zhao, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, and Weidi

Xie. Pmc-clip: Contrastive language-image pre-training using biomedical documents. MICCAI, 2023.