【新智元导读】一篇综述、一个库房,速通多模态大言语模型。

近来,多模态大言语模型(Multimodal Large Language Model,MLLM)遭到广泛关注,成为一个新兴的研讨抢手。

MLLM一般以大言语模型(Large Language Model,LLM)为根底,融入其它非文本的模态信息,完结各种多模态使命。

GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新

比较于常规的多模态模型,MLLM涌现出一些令人惊叹的新才能,例如基于图片进行诗文创作和OCR-Free的数学推理等。这些强壮的才能显现MLLM有望成为完成通用人工智能的一种途径。

为此,来自中科大、腾讯等组织的研讨人员深入探讨了MLLM的研讨开展并宣布了该范畴的首篇综述《A Survey on Multimodal Large Language Models》:

GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新

论文链接:arxiv.org/pdf/2306.13…

GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新

项目链接(实时更新最新论文):github.com/BradyFU/Awe…

研讨人员将MLLM界说为「由LLM扩展而来的具有接收与推理多模态信息才能的模型」,该类模型相较于抢手的单模态LLM具有以下的优势:

  1. 更符合人类认知国际的习惯。人类具有多种感官来接受多种模态信息,这些信息一般是互为补充、协同效果的。因而,运用多模态信息一般能够更好地认知与完结使命。

  2. 愈加强壮与用户友爱的接口。经过支持多模态输入,用户能够经过愈加灵敏的方法输入与传达信息。

  3. 更广泛的使命支持。LLM一般只能完结纯文本相关的使命,而MLLM经过多模态能够额定完结更多使命,如图片描绘和视觉知识问答等。

该综述主要环绕MLLM的三个关键技能以及一个使用打开,包括:

  1. 多模态指令微调(Multimodal Instruction Tuning,M-IT)

  2. 多模态上下文学习(Multimodal In-Context Learning,M-ICL)

  3. 多模态思想链(Multimodal Chain of Thought,M-CoT)

  4. LLM辅佐的视觉推理(LLM-Aided Visual Reasoning,LAVR)

前三项技能构成了MLLM的根底,而最终一个是以LLM为中心的多模态体系。

三项技能作为LLM的代表性才能在NLP范畴已有广泛研讨,但扩展到多模态范畴时会呈现许多新的特点与应战。

LLM辅佐的视觉推理体系触及几种典型的规划思路,行将LLM作为控制器、决议计划器或语义润饰器。

CVPR 2023最佳论文Visual Programming [1]即采用了将LLM作为控制器的规划思路。本文将对前述的几个方面以及相关应战做简略的概览,更丰富的内容请参考原文。

多模态指令微调 M-IT

指令(Instruction)指的是对使命的描绘,多模态指令微调是一种经过指令格局的数据(Instruction-formatted data)来微调预练习的MLLM的技能。

经过该技能,MLLM能够跟随新的指令泛化到未见过的使命上,提高zero-shot功能。多模态的指令格局如下所示:

GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新

图1.M-IT格局

多模态指令数据的基本形式能够概括为(指令,多模态输入,回答)三元组。指令的规划能够分为手艺规划与GPT辅佐规划这两种方法。

前者指的是人工为每种使命规划一系列指令模板,比方关于传统的视觉问答使命,指令能够规划为「GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新 What is the answer to the question? {question}」,其中GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新和{question}(对应着图1中的)为原有视觉问答使命中的图画和问题。

另一种GPT辅佐规划的方法是经过手艺规划少数样例来Prompt GPT生成更丰富的指令。

关于多模态指令微调,研讨人员从数据、模态桥接(Modality Bridging)和评测三个方面对现有作业进行了总结,如下图所示:

GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新

图2.M-IT总结

多模态上下文学习 M-ICL

多模态上下文学习指的是给定少数样例作为Prompt输入,激起模型潜在的才能并规范化模型的输出。其样例如下图所示:

GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新

图3.M-CoT样例

现在以Flamingo[2]为代表的M-ICL相关的研讨作业还比较少。

LLM一般不需求专门的练习即可拥有ICL才能,但现阶段的MLLM还比较依靠练习,而且仍缺少对样例挑选和样例次序等方面的深入研讨。

多模态思想链 M-CoT

多模态思想链经过显现地逐步推理(给出中心的推理步骤)来获得多模态使命的答案。比较于直接输出答案,M-CoT在较为复杂的推理使命上能够取得更好的表现。

研讨人员从模态桥接(Modality Bridging)、学习范式、思想链装备以及生成形式这四个方面总结了当时的研讨:

GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新

图4. M-CoT总结

现在M-CoT的研讨也较少,仍处在开始探究阶段。

LLM辅佐的视觉推理 LAVR

这类作业利用LLM强壮的内嵌知识与才能以及其他工具,规划各种视觉推理体系。

比较于传统视觉推理模型,这些作业具有以下的好的特性:

(1)强壮的零/少样本泛化才能

(2)具备新的才能,这些体系能够执行愈加复杂的使命,如解读梗图的深层含义

(3)更好的互动性与可控性

研讨人员从练习范式、LLM扮演的人物以及评测三个部分总结了当时的开展:

GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新

图5.LAVR总结

应战和未来方向

现在来看,MLLM的开展还处于起步阶段,无论是相关技能还是详细使用都还存在着许多应战与可研讨的问题,能够总结为以下几点:

  1. 现有MLLM的感知才能受限,导致获取的视觉信息不完整或者有误,并进一步使得后续的推理犯错。这可能是因为现有模型在信息容量和核算担负之间的退让形成的。

  2. MLLM的推理链较为脆弱。表现为即使是做简略的多模态推理问题,模型有时仍会因为推理链条断裂导致输犯过错答案。

  3. MLLM的指令遵守才能需求进一步提高。表现为在进行指令微调后,即使是较为简略的指令,部分MLLM仍然无法输出预期的答案。

  4. 物体幻视问题普遍存在。表现为MLLM输出的回复与图片的内容不相符,呈现了编造物体等现象,影响了MLLM的可靠性。

  5. 高效参数练习。因为MLLM的模型容量很大,在核算资源受限的条件下,高效参数练习有望能够解锁更多MLLM的才能。

上述前四点问题在与本文同系列的论文(arxiv.org/pdf/2306.13…

除了上述问题外,MLLM在详细的子方向上也都只进行了开始探究,比方M-ICL现在仍然缺少对样本选取以及排序的深入研讨。

参考资料:

[1] Gupta, Tanmay and Kembhavi, Aniruddha. Visual programming: Compositional visual reasoning without training. CVPR 2023

[2] Alayrac, Jean-Baptiste and Donahue, Jeff and Luc, Pauline and Miech, Antoine and Barr, Iain and Hasson, Yana and Lenc, Karel and Mensch, Arthur and Millican, Katherine and Reynolds, Malcolm and others. Flamingo: a visual language model for few-shot learning. NeurIPS 2019