最近在GitHub上发现了一个爆火的开源项目。

好家伙,靠近一看,居然还是由微软开源,并且和最近炙手可热的ChatGPT息息相关

项目的姓名叫做:Visual ChatGPT

github.com/microsoft/v…

一个令人惊艳的ChatGPT项目,开源了!

这个项目最早是3月上旬微软开源的,项目宣告开源后仅用了短短一周,就斩获了2w+ star。

一个令人惊艳的ChatGPT项目,开源了!

到现在为止,距离最初项目开源大约过去了3周多,库房star数则来到了28k+,亦可谓是火箭式上涨(doge)。

众所周知,ChatGPT自2022年11月推出以来,继续走红。

一个令人惊艳的ChatGPT项目,开源了!

ChatGPT具备强壮的会话能力,能够了解文字、聊天、写小说、解答问题、编写代码… 但是现在还并不能直接处理或生成图画。

而Visual ChatGPT这个项目则能够把ChatGPT和一系列视觉根底模型(VFM,Visual Foundation Model)给联系起来,以便实现在ChatGPT聊天的过程中来发送和接收图画,也使得ChatGPT能够处理更为杂乱的视觉使命。

一个令人惊艳的ChatGPT项目,开源了!

讲白了,就是通过Visual ChatGPT,能够把一系列视觉根底模型给接入ChatGPT,使得ChatGPT能胜任更为杂乱的视觉处理使命。

一个令人惊艳的ChatGPT项目,开源了!

Visual ChatGPT的整体技能架构图如上所示,咱们能够清楚地看到ChatGPT和视觉根底模型(VFM,Visual Foundation Model)分别坐落其中的位置。

一方面,ChatGPT(或LLM)作为一个通用接口,继续发挥它本身的优势,提供对不同话题的智能了解。另一方面,根底视觉模型VFM则通过提供特定领域的深入常识来充当领域专家,它们通过交互办理模块(Prompt Manger)进行衔接和适配。

这样聊可能比较笼统,咱们能够拿官方给的一个例子来进行阐明:

一个令人惊艳的ChatGPT项目,开源了!

1、首先是用户:输入一张黄色的向日葵图片,并且要求ChatGPT依据该图画猜测深度来生成一朵红花,然后再一步一步将其做成卡通画。

2、接着是交互办理模块(Prompt Manger)发挥作用,在它的协谐和控制下,VFM模块开始发挥作用:

  • 首先需求运用深度估计模型来猜测并生成图画的深度信息;
  • 然后需求运用深度图画模型来生成对应空间深度的红花图画;
  • 终究运用Stable Diffusion的风格迁移模型来完结图画风格的改换。

3、终究Visual ChatGPT系统再将终究成果返回给用户,完结本次对话。

提到这里,有爱好的小伙伴能够能够看看微软给出的一篇有关Visual ChatGPT的论文。

一个令人惊艳的ChatGPT项目,开源了!

里边关于这部分的流程解释得十分详细,并且还给出了多轮对话的案例、以及实验成果,有爱好的小伙伴能够看看。

好了,今天的共享就到这里了,感谢我们的收看,咱们下篇见。

注:本文在GitHub开源库房「编程之路」 github.com/rd2coding/R… 中已经收录,里边有我收拾的6大编程方向(岗位)的自学路线+常识点大整理、面试考点、我的简历、几本硬核pdf笔记,以及程序员生活和感悟,欢迎star。