微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

Title: LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
PDF: arxiv.org/pdf/2306.00…
Code: aka.ms/llava-med

导读

单模态文本在生物医学范畴的研讨现已取得了明显的作用,而多模态对话人工智能则经过运用来自公共网络的数十亿个图画-文本对取得了快速发展。可是,这些通用范畴的视觉-言语模型在了解和对话生物医学图画方面依然缺乏复杂性。 因此,本文提出了一种成本效益高的办法,用于练习一种可以答复生物医学图画开放性研讨问题的视觉-言语对话帮手。

其要害思维是运用从PubMed Central提取的大规模、广覆盖的生物医学图题数据集,运用GPT-4从图题中自我辅导生成开放性指令遵从数据,并运用一种新颖的课程学习办法对大型通用范畴的视觉-言语模型进行微调。详细而言,该模型首先经过图题对齐学习生物医学词汇,然后运用GPT-4生成的指令遵从数据来掌握开放性对话语义,广泛模拟外行人逐渐习得生物医学常识的进程。 这使得咱们可以在不到15小时的时间内(运用八个A100显卡)练习出一种用于生物医学的大型言语和视觉帮手(LLaVA-Med)。LLaVA-Med体现出优秀的多模态对话才能,并能依据开放性指令辅佐答复关于生物医学图画的问题。在三个规范生物医学视觉问答数据集上,微调LLaVA-Med在某些指标上优于从前的监督式最先进办法。为了促进生物医学多模态研讨,咱们将发布咱们的指令遵从数据和LLaVA-Med模型。

导言

在通用范畴中,图画-文本数据非常丰富,例如网络图画及其相关的标题。生成式预练习现已被证明是运用这种平行数据进行自监督视觉-言语建模的有用办法,例如多模态GPT-4 和开源项目LLaVA 。经过依据多模态输入的人类意图调整模型,所得到的大型多模态模型(LMMs)在各种以用户为导向的视觉-言语使命(如图画了解和推理)中体现出强大的零样本使命完成功能,为开发通用的多模态对话帮手铺平了路途。

可是,尽管在通用范畴取得了成功,可是这样的LMMs在生物医学范畴的作用较差,由于生物医学图画-文本对与通用网络内容天壤之别。 成果是,通用范畴的视觉帮手可能体现得像一个外行人,不会答复生物医学问题,或许更糟糕的是发生过错的答复或完全的虚拟。生物医学视觉问答(VQA)现已取得了很大发展,但曾经的办法一般将问题建模为分类(例如,在练习会集观察到的不同答案之间的分类),而且关于开放性指令遵从的使命预备缺乏。因此,尽管生成式对话AI现已展现了在生物医学运用方面的巨大潜力,但当前的研讨一般仅限于单模态文本。

在本文中,咱们提出了用于生物医学范畴的大型言语和视觉帮手(LLaVA-Med),这是初次尝试将多模态指令调整扩展到生物医学范畴,进行端到端的练习以开发生物医学多模态对话帮手。 现已证明,针对生物医学自然言语处理(NLP)运用和生物医学视觉-言语(VL)使命进行范畴特定的预练习是有用的。最近,经过创立来自PubMed Central的1500万个生物医学图画-文本对的广泛覆盖数据集PMC-15M,大规模的生物医学VL学习已成为可能。该数据集比下一个最大的公共数据集MIMIC-CXR大两个数量级,而且涵盖了多种类型的图画。受最近的指令调整工作的启发,LLaVA-Med运用GPT-4依据PMC-15M中的图画-文本对生成多样的生物医学多模态指令遵从数据,并运用一种新颖的课程学习办法对大规模生物医学范畴的VL模型进行微调。详细来说,本文奉献如下:

  • 生物医学多模态指令遵从数据。咱们提出了一种新颖的数据生成流程,经过从PMC-15M中采样生物医学图画-文本对,并运用GPT-4仅运用文本生成指令(作为预期输出)来创立多样的(图画、指令、输出)实例。这不需求任何手动注释,而且经过依赖于PMC-15的数据集,创立了一个极其多样化的视觉指令遵从数据集,涵盖了生物医学图画的完整研讨成果的全谱。
  • LLaVA-Med。咱们提出了一种新颖的课程学习办法,将LLaVA调整到生物医学范畴,运用咱们主动生成的生物医学多模态指令遵从数据进行微调。详细而言,咱们首先运用图画-文本对(运用通用指令简单要求图画的描绘)对LLaVA进行微调以对齐生物医学词汇。然后,咱们运用主动生成的指令遵从数据继续练习模型以学习开放性对话语义。经过这种办法,咱们可以在不到15小时的时间内运用八个A100显卡练习出LLaVA-Med。咱们的实证研讨验证了范畴特定指令调整的有用性,并揭示了将多模态对话帮手运用于高价值笔直范畴的最佳实践和有趣的发现。在已树立的生物医学VQA数据集上,微调LLaVA-Med的功能一般优于监督式最先进办法。
  • 开源。为了促进生物医学多模态学习的研讨,咱们将向公众发布以下资源:生物医学多模态指令遵从数据集以及数据生成和模型练习的代码库。

生物医学视觉指令数据

为了使模型可以遵从多样的指令,咱们经过仅运用言语的GPT-4来生成多轮关于所供给的生物医学图画的对话指令。详细而言,给定一个图画标题,咱们设计了一个提示,要求GPT-4生成多轮的问题和答复,语气上体现得好像它可以看到图画(尽管它只能访问文本)。有时候,图画标题太短,GPT-4无法生成有意义的问题和答案。为了供给关于图画的更多上下文,咱们还创立了一个提示,除了标题外,还包含说到图画的原始PubMed论文的语句。咱们还手动攥写了一些少样本示例,以演示如何依据供给的标题和上下文生成高质量的对话。从中,咱们从五种最常见的成像模态(胸部X射线,计算机断层扫描,磁共振成像,安排病理学和微观病理学)中抽样了6万个图画文本对。

::: block-1

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

GPT-4生成的指令遵从数据实例。上图:该图和标题是从PubMed Central的全文文章中提取的,一起还提取了对该图的引证(在文章中说到该图的地方)。下图:运用仅文本(标题和引证)由GPT-4生成的指令遵从数据。 :::

::: block-1

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

生物医学多模态指令遵从数据的数据计算:(a,b) 指令和回复的根动词-名词对,图中的内圈表明输出回复的根动词,外圈表明直接名词。(c) 图画和问答对在五个范畴上的分布,每个范畴展现一张图画。 :::

上图1显示了指令遵从数据的一个示例,上图2显示了数据计算。在不断改进数据质量的进程中,咱们生成了三个版本的指令数据:(i) 60K-IM。考虑内联提及(IM)作为上下文的数据集。 (ii) 60K。与60K-IM巨细相似(60K个样本),但在自我生成指令时不考虑IM。 (iii) 10K。一个较小的数据集(10个样本),没有IM。它们用于实验中对咱们的数据生成战略及其对经过练习的LLaVA-Med的影响进行融化实验分析。

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

办法

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

本文运用LLaVA作为初始的通用范畴多模态对话模型,并将模型接连练习到生物医学范畴。本文采用相同的网络架构,其中线性投影层连接视觉编码器和言语模型。关于LLaVA-Med模型的练习,采用了两阶段练习进程,如上图3所示。

生物医学概念特征对齐-stage1

为了在概念覆盖率和练习功率之间取得平衡,咱们从PMC-15M中筛选出了60万个图画文本对。经过一种简单的扩展办法,这些对被转化为了指令跟随数据:指令仅仅简单地描绘图画的使命。关于每个样本,给定言语指令和图画输入,咱们要求模型猜测原始标题。在练习中,咱们保持视觉编码器和言语模型权重冻住,只更新投影矩阵。经过这种办法,可以将很多新颖的生物医学视觉概念的图画特征与预练习言语模型中的文本词嵌入对齐。这个阶段可以了解为将匹配的图画-文本符号的词汇扩展到生物医学范畴。

端到端指令微调-stage2

咱们只保持视觉编码器权重不变,继续更新投影层和言语模型的预练习权重。为了练习模型以跟随各种指令并以对话办法完成使命,咱们在搜集的生物医学言语-图画指令跟随数据上对模型进行微调,开发了一个生物医学谈天机器人。正如后面将要描绘的实验所示,此阶段的LLaVA-Med模型不仅可以作为生物医学视觉帮手与用户互动,还能在评价已树立的生物医学VQA数据集时实现杰出的zero-shot使命搬运功能。

微调至下游使命

关于一些特定的生物医学场景,需求开发高度精确且特定于数据集的模型,以进步模型功能。在两个阶段的练习之后,咱们对LLaVA-Med进行微调,运用了三个生物医学VQA数据集,涵盖了不同的数据集巨细和多样化的生物医学主题。给定一个生物医学图画作为上下文,供给多个自然言语问题,模型针对闭集和开集问题以自在文本形式进行答复,并为每个闭集问题的提示构建了一个候选答案列表。

实验成果

生物医学视觉谈天功能评价

::: block-1

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

仅进行第一阶段练习的LLaVA-Med作为谈天机器人是不够的,由于它失去了了解多样化指令的才能,尽管在生物医学概念覆盖方面有所改进。经过完整的两阶段练习的LLaVA-Med持续优于一般范畴的LLaVA,而且运用更大的辅导数据(从10K到60K样本)会导致更高的功能。当在自我辅导中考虑内联提及时,生成的数据60K-IM稍微进步了谈天才能。成果证明了生物医学指令跟随数据搜集战略的有用性以及数据集的价值。整体而言,关于最佳的LLaVA-Med,它与GPT-4的50.2%功能相匹配。需求留意的是,GPT-4经过考虑实在标题和黄金内联提及来生成答复,而不了解图画。尽管LMM(大型多模态模型)和GPT-4之间不是公正的比较,但GPT-4是一个一致牢靠的评价工具 :::

::: block-1

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

LLaVA-Med以生物医学常识精确答复问题,而LLaVA则像一个普通人相同发生过错的梦想。由于多模态GPT-4不可公开取得,咱们运用仅限于言语的GPT-4进行比较。咱们将标题和内联内容作为上下文输入到GPT-4中,它经过重新安排对话办法中的信息来生成有常识的回应。 :::

基准功能评价

::: block-1

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

与从前的最先进监督办法的比较。关于开放式问题,从前的办法依然将问题表述为在练习会集的不同答案之间的分类,这可能会高估它们的泛化才能,由于这些数据集的特别之处在于测验答案几乎总是出现在练习中。加粗表明LLaVA-Med达到了新的最优成果。 :::

::: block-1

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

不同阶段练习中运用不同练习轮数的实验研讨。“FT”代表微调(Fine-Tuning)。60K-IM表明运用inline生成的指令数据。灰色行是运用不同指令数据练习的LLaVA-Med的zero-shot功能,它们被选择在子表(a)中显示。 :::

::: block-1

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

zero-shot中的中文问题示例。尽管LLaVA-Med的练习数据自身不包含中文,但它可以正确了解中文问题。 :::

结论

本文提出了一个用于生物医学范畴的大规模言语和视觉模型LLaVA-Med。为了创立这个模型,本文运用自我辅导self-instruction的办法创立了高质量的生物医学言语-图画辅导数据集。LLaVA-Med展现了强大的范畴常识和出色的谈天才能,并在某些指标上优于从前的有监督办法在三个VQA数据集上的功能。尽管LLaVA-Med是朝着构建一个有用的生物医学视觉帮手迈出的重要一步,但LLaVA-Med在幻觉和深化推理方面依然存在局限性,这是许多LMMs一起的弱点。