GPT-4 现已发布一个多月了,但识图功用还是体会不了。来自阿卜杜拉国王科技大学的研讨者推出了类似产品 ——MiniGPT-4,我们可以上手体会了。

对人类来说,了解一张图的信息,不过是一件微不足道的小事,人类几乎不必考虑,就能随口说出图片的意义。就像下图,手机刺进的充电器多少有点不合适。人类一眼就能看出问题所在,但对 AI 来说,难度还是十分大的。

3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站

GPT-4 的呈现,开端让这些问题变得简略,它能很快的指出图中问题所在:VGA 线充 iPhone。

其实 GPT-4 的魅力远不及此,更炸场的是利用手绘草图直接生成网站,在草稿纸上画一个马虎的示意图,拍张照片,然后发给 GPT-4,让它依照示意图写网站代码,嗖嗖的,GPT-4 就把网页代码写出来了。

但惋惜的是,GPT-4 这一功用目前仍未向大众开放,想要上手体会也无从谈起。不过,现已有人等不及了,来自阿卜杜拉国王科技大学(KAUST)的团队上手开发了一个 GPT-4 的类似产品 ——MiniGPT-4。团队研讨人员包含朱德尧、陈军、沈晓倩、李祥、Mohamed H. Elhoseiny,他们均来自 KAUST 的 Vision-CAIR 课题组。

3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站

  • 论文地址:github.com/Vision-CAIR…
  • 论文主页:minigpt-4.github.io/
  • 代码地址:github.com/Vision-CAIR…

MiniGPT-4 展现了许多类似于 GPT-4 的才能,例如生成具体的图画描绘并从手写草稿创建网站。此外,作者还观察到 MiniGPT-4 的其他新式才能,包含依据给定的图画创造故事和诗篇,提供处理图画中显示的问题的处理方案,依据食品照片教用户怎么烹饪等。

MiniGPT-4 看图说话不在话下

MiniGPT-4 作用究竟怎么呢?我们先从几个示例来阐明。此外,为了更好的体会 MiniGPT-4,主张运用英文输入进行测验。

首要调查一下 MiniGPT-4 对图片的描绘才能。关于左面的图,MiniGPT-4 给出的答复大致为「图片描绘的是成长在冰冻湖上的一株仙人掌。仙人掌周围有巨大的冰晶,远处还有白雪皑皑的山峰……」假如你接着询问这种现象可以发生在实际国际中吗?MiniGPT-4 给出的答复是这张图画在实际国际并不常见,并给出了原因。

3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站

接着,在来看看 MiniGPT-4 图片问答才能。问:「这棵植物呈现了什么问题?我该怎么办?」MiniGPT-4 不光指出了问题所在,表示带有棕色斑驳的树叶可能由真菌感染引起,并给出了医治过程:

3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站

几个示例看下来,MiniGPT-4 看图聊天的功用现已十分强壮了。不仅如此,MiniGPT-4 还能从草图创建网站。例如让 MiniGPT-4 依照左面的草稿图制作出网页,收到指令后,MiniGPT-4 给出对应的 HTML 代码,依照要求给出了相应网站:

3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站

借助 MiniGPT-4,给图片写广告语也变得十分简略。要求 MiniGPT-4 给左面的杯子写广告文案。MiniGPT-4 精准的指出了杯子上有嗜睡猫图案,十分合适咖啡爱好者以及猫爱好者运用,还指出了杯子的材质等等:

3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站

MiniGPT-4 还能对着一张图片生成菜谱,变身厨房小能手:

3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站

解释广为流传的梗图:

3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站

依据图片写诗:

3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站

此外,值得一提的是,MiniGPT-4 Demo 现已开放,在线可玩,我们可以亲自体会一番(主张运用英文测验):

3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站

Demo 地址:0810e8582bcad31944.gradio.live/

项目一经发布,便引起网友广泛重视。例如让 MiniGPT-4 解释一下图中的物体:

3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站

下面还有更多网友的测验体会:

3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站

3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站

办法简介

作者以为 GPT-4 具有先进的大型语言模型(LLM)是其具有先进的多模态生成才能的主要原因。为了研讨这一现象,作者提出了 MiniGPT-4,它运用一个投影层将一个冻住的视觉编码器和一个冻住的 LLM(Vicuna)对齐。MiniGPT-4 由一个预练习的 ViT 和 Q-Former 视觉编码器、一个独自的线性投影层和一个先进的 Vicuna 大型语言模型组成。MiniGPT-4 只需要练习线性层,用来将视觉特征与 Vicuna 对齐。

3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站

MiniGPT-4 进行了两个阶段的练习。第一个传统的预练习阶段运用大约 5 百万对齐的图画文本对,在 4 个 A100 GPU 上运用 10 小时进行练习。第一阶段后,Vicuna 可以了解图画。但是 Vicuna 文字生成才能受到了很大的影响。为了处理这个问题并进步可用性,研讨者提出了一种新颖的方式,经过模型本身和 ChatGPT 一同创建高质量的图画文本对。基于此,该研讨创建了一个小而高质量的数据集(总共 3500 对)。第二个微调阶段运用对话模板在此数据集上进行练习,以明显进步其生成可靠性和整体可用性。这个阶段具有高效的计算才能,只需要一张 A100GPU 大约 7 分钟即可完结。其他相关工作:

  • VisualGPT: github.com/Vision-CAIR…
  • ChatCaptioner: github.com/Vision-CAIR…

此外,项目中还运用了开源代码库包含 BLIP2、Lavis 和 Vicuna。