熔岩羊驼LLaVA来了：像GPT-4一样可以看图聊天，无需邀请码，在线可玩

机器之心报道

修改：赵阳

尽管 LLaVA 是用一个小的多模态指令数据集练习的，但它在一些示例上展现了与多模态模型 GPT-4 十分相似的推理成果。

GPT-4 的识图才能什么时分能上线呢？这个问题现在仍然没有答案。

但研讨社区现已等不及了，纷繁自己上手 DIY，其中最火的是一个名为MiniGPT-4的项目。MiniGPT-4 展现了许多相似于 GPT-4 的才能，例如生成具体的图画描绘并从手写草稿创建网站。此外，作者还观察到 MiniGPT-4 的其他新式才能，包含根据给定的图画创造故事和诗歌，供给处理图画中显现的问题的处理计划，根据食物照片教用户如何烹饪等。该项目上线 3 天就拿到了近一万的 Star 量。

今日要介绍的项目 ——LLaVA（Large Language and Vision Assistant）与之相似，是一个由威斯康星大学麦迪逊分校、微软研讨院和哥伦比亚大学研讨者一起发布的多模态大模型。

论文链接：arxiv.org/pdf/2304.08…
项目链接：llava-vl.github.io/

该模型展现出了一些接近多模态 GPT-4 的图文了解才能：相对于 GPT-4 获得了 85.1% 的相对得分。当在科学问答（Science QA）上进行微调时，LLaVA 和 GPT-4 的协同效果完结了 92.53% 精确率的新 SoTA。

以下是机器之心的试用成果（更多成果见文末）：

论文概览

人类经过视觉和言语等多种途径与国际交互，由于不同的途径在代表和传达某些概念时都有各自共同的优势，多途径的办法有利于更好地了解国际。人工智能的中心愿望之一是开发一个通用的助手，能够有用地遵从多模态指令，例如视觉或言语的指令，满意人类的意图，在真实环境中完结各种使命。

为此，社区兴起了对开发根据言语增强的视觉模型的风潮。这类模型在敞开国际视觉了解方面具有强大的才能，如分类、检测、分割和图文，以及视觉生成和视觉修改才能。每个使命都由一个大型视觉模型独立处理，在模型设计中隐含地考虑了使命的需求。此外，言语仅用于描绘图画内容。尽管这使得言语在将视觉信号映射到言语语义（人类沟通的常见途径）方面发挥了重要效果，但它导致模型通常具有固定的界面，在交互性和对用户指令的适应性上存在限制。

另一方面，大型言语模型（LLM）现已标明，言语能够发挥更广泛的效果：作为通用智能助理的通用交互接口。在通用接口中，各种使命指令能够用言语明确表明，并引导端到端练习的神经网络助理切换模式来完结使命。例如，ChatGPT 和 GPT-4 最近的成功证明了 LLM 在遵从人类指令完结使命方面的能量，并掀起了开发开源 LLM 的热潮。其中，LLaMA 是一种与 GPT-3 功能附近的开源 LLM。Alpaca、Vicuna、GPT-4-LLM 运用各种机器生成的高质量指令跟踪样原本进步 LLM 的对齐才能，与专有 LLM 比较，展现出了令人形象深刻的功能。但惋惜的是，这些模型的输入仅为文本。

在本文中，研讨者提出了视觉 instruction-tuning 办法，首次尝试将 instruction-tuning 扩展到多模态空间，为构建通用视觉助理铺平了道路。

具体来说，本文做出了以下贡献：

多模态指令数据。当下关键的挑战之一是缺少视觉与言语组成的指令数据。本文提出了一个数据重组办法，运用 ChatGPT/GPT-4 将图画 – 文本对转换为恰当的指令格式；
大型多模态模型。研讨者经过衔接 CLIP 的开源视觉编码器和言语解码器 LLaMA，开发了一个大型多模态模型（LMM）—— LLaVA，并在生成的视觉 – 言语指令数据上进行端到端微调。实证研讨验证了将生成的数据用于 LMM 进行 instruction-tuning 的有用性，并为构建遵从视觉 agent 的通用指令供给了较为有用的技巧。运用 GPT-4，本文在 Science QA 这个多模态推理数据集上完结了最先进的功能。
开源。研讨者向大众发布了以下资产：生成的多模式指令数据、用于数据生成和模型练习的代码库、模型检查点和可视化谈天演示。

LLaVA 架构

本文的首要方针是有用运用预练习的 LLM 和视觉模型的功能。网络架构如图 1 所示。本文选择 LLaMA 模型作为 LLM f（・），由于它的有用性现已在几个开源的纯言语 instruction-tuning 工作中得到了证明。

对于输入图画 X_v，本文运用预练习的 CLIP 视觉编码器 ViT-L/14 进行处理，得到视觉特征 Z_v=g (X_v)。试验中运用的是最后一个 Transformer 层之前和之后的网格特征。本文运用一个简略的线性层来将图画特征衔接到单词嵌入空间中。具体而言，运用可练习投影矩阵 W 将 Z_v 转换为言语嵌入符号 H_q，H_q 具有与言语模型中的单词嵌入空间相同的维度：

之后，得到一系列视觉符号 H_v。这种简略投影计划具有轻量级、本钱低一级特点，能够快速迭代以数据为中心的试验。也能够考虑衔接图画和言语特征的更复杂（但贵重）的计划，例如 Flamingo 中的门控交叉注意力机制和 BLIP-2 中的 Q-former，或许供给目标级特征的其他视觉编码器，如 SAM。

试验成果

多模态谈天机器人

研讨者开发了一个谈天机器人示例产品，以展现 LLaVA 的图画了解和对话才能。为了进一步研讨 LLaVA 如何处理视觉输入，展现其处理指令的才能，研讨者首先运用 GPT-4 原始论文中的示例，如表 4 和表 5 所示。运用的 prompt 需要贴合图画内容。为了进行比较，本文引用了其论文中多模态模型 GPT-4 的 prompt 和成果。

令人惊讶的是，尽管 LLaVA 是用一个小的多模态指令数据集（约 80K 的不重复图画）练习的，但它在以上这两个示例上展现了与多模态模型 GPT-4 十分相似的推理成果。请注意，这两张图画都不在 LLaVA 的数据集范围内，LLaVA 能够了解场景并按照问题阐明进行答复。比较之下，BLIP-2 和 OpenFlamingo 专心于描绘图画，而不是按照用户指令以恰当的办法进行答复。更多示例如图 3、图 4 和图 5 所示。

定量评价成果见表 3。

ScienceQA

ScienceQA 包含 21k 个多模态多选问题，触及 3 个主题、26 个论题、127 个类别和 379 种技术，具有丰富的领域多样性。基准数据集分为练习、验证和测验部分，分别有 12726、4241 和 4241 个样本。本文对比了两种有代表性的办法，包含 GPT-3.5 模型（text-davinci-002）和没有思想链（CoT）版本的 GPT-3.5 模型，LLaMA-Adapter，以及多模态思想链（MM-CoT）[57]，这是该数据集上当时的 SoTA 办法，成果如表 6 所示。

试用反馈

在论文给出的可视化运用页面上，机器之心也尝试着输入了一些图片和指令。首先是问答里常见的数人使命。测验标明，数人的时分较小的方针会被疏忽，堆叠的人也有辨认差错，性别也有辨认差错。

接着，咱们尝试了一些生成使命，比方为图片起名字，或许根据图片讲一个故事。模型输出的成果仍是偏向于图片内容了解，生成方面的才能还有待加强。

在这张照片中，即便人体有重合也仍然能精确地辨认出人数。从图片描绘和了解才能的角度来看，本文的工作仍是存在亮点，存在着二创的空间。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

熔岩羊驼LLaVA来了：像GPT-4一样可以看图聊天，无需邀请码，在线可玩

近期文章

近期评论