上个月GPT-4发布时,我曾写过一篇文章分享过有关GPT-4的几个要害信息。
其时的分享就提到了GPT-4的一个重要特性,那就是多模态才能。
比方发布会上演示的,输入一幅图(手套掉下去会怎么样?)。

GPT-4可以了解并输出给到:它会掉到木板上,并且球会被弹飞。
再比方给GPT-4一张长相奇怪的充电器图片,问为什么这很可笑?

GPT-4回答道,VGA 线充 iPhone。
用户乃至还可以直接画一个网站草图摄影丢给GPT-4,它就可以立马帮助生成代码。


可是时间过去了这么久,GPT-4像这样的识图功用也迟迟没有敞开。
就在咱们都在等候这个功用敞开的时分,一个名为MiniGPT-4的开源项目悄然做了这件工作。
github.com/Vision-CAIR…

没错,就是为了增强视觉言语了解。
MiniGPT-4背后团队来自KAUST(沙特阿卜杜拉国王科技大学),是几位博士开发的。

项目除了是开源的之外,并且还供给了网页版的demo,用户可以直接进去体验。

MiniGPT-4也是根据一些开源大模型来训练得到的。
团队把图画编码器与开源言语模型Vicuna(羊羔驼)整合起来,并且冻结了两者的大部分参数,只需要训练很少一部分。
训练分为两个阶段。
传统预训练阶段,在4张A100上使用500万图文对,10个小时内就可以完结,此时训练出来的Vicuna已可以了解图画,但生成才能有限。
然后在第二个调优阶段再用一些小的高质量数据集进行训练。这时分的核算效率很高,单卡A100只需要7分钟。

并且团队正在准备一个更轻量级的版本,部署起来只需要23GB显存,这也就意味着未来可以在一些消费级的显卡中或许就可以进行本地训练了。
这儿也给咱们看几个比如。
比方丢一张食物的相片进去来获得菜谱。
或许给出一张商品的相片来让其帮助写一篇案牍。
当然也可以像之前GPT-4发布会上演示的那样,画出一个网页,让其帮助生成代码。
可以说,GPT-4发布会上演示过的功用,MiniGPT-4根本也都有。
这一点可以说十分amazing了!
可能因为目前使用的人比较多,在MiniGPT-4网页demo上试用时会遇到排队的状况,需要在队列中等候。

可是用户也可以自行本地部署服务,进程并不杂乱。
首先是下载项目&准备环境:
git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4
然后下载预训练模型:

最后在本地启动Demo:
python demo.py --cfg-path eval_configs/minigpt4_eval.yaml
经过这个项目咱们也再一次看出大模型在视觉领域的可行性,未来在图画、音频、视频等方面的使用远景应该也是十分不错的,咱们可以期待一下。
好了,今天的分享就到这儿了,感谢咱们的收看,咱们下期见。
注:本文在GitHub开源库房「编程之路」 github.com/rd2coding/R… 中已经收录,里面有我整理的6大编程方向(岗位)的自学道路+知识点大梳理、面试考点、我的简历、几本硬核pdf笔记,以及程序员生活和感悟,欢迎star。