HuggingGPT 在线演示惊艳亮相，网友亲测图像生成绝了

修改：桃子

【新智元导读】浙大 & 微软推出的 HuggingGPT 爆火之后，刚刚敞开了 demo，急不可待的网友自己上手体会了一番。

最强组合 HuggingFace+ChatGPT=「贾维斯」现在敞开 demo 了。

前段时间，浙大 & 微软发布了一个大模型协作体系 HuggingGPT 直接爆火。

研究者提出了用 ChatGPT 作为控制器，衔接 HuggingFace 社区中的各种 AI 模型，完结多模态杂乱使命。

整个进程，只需要做的是：用自然言语将你的需求输出。

英伟达科学家称，这是我本周读到的最有意思的论文。它的思维十分挨近我之前说的「Everything App」，即万物皆 App，被 AI 直接读取信息。

上手体会

现在，HuggingGPT 增加了 Gradio 演示。

项目地址：github.com/microsoft/J…

有网友便上手体会了一番，先来「辨认图上有几个人」？

HuggingGPT 依据推理成果，得出图片中有 2 个人正在街道上行走。

具体进程如下：

首先运用图画到文本模型 nlpconnect/vit-gpt2-image-captioning 进行图画描绘，生成的文本「2 个女人在有火车的街道上行走」。

接着，运用了方针检测模型 facebook/detrresnet 50 来检测图片中的人数。模型检测出 7 个物体，2 个人。

再运用视觉问题答复模型 dandelin/vilt-b32-finetuned-vqa 得出成果。终究，体系供给了具体的呼应和用于解答问题的模型信息。

别的，让它了解「我喜欢你」这句话的情感，并将其翻译成泰米尔语（Tamiḻ）。

HuggingGPT 调用了以下模型：

首先，运用了模型「dslim/bert-base-NER」对文本「l love you」进行情感分类，是「浪漫」。

然后，运用「ChatGPT」将文本翻译成泰米尔语，即「Nan unnai kadalikiren」。

在推理成果中没有生成的图片、音频或视频文件。

转录 MP3 文件时，HuggingGPT 却失败了。网友表示，「不确定这是否是我的输入文件的问题。」

再来看看图画生成的才能。

输入「一只猫跳舞」图画上增加文字「I LOVE YOU」作为叠加层。

HuggingGPT 首先运用了「runwayml/stable-diffusion-1-5」模型依据给定的文本生成「跳舞的猫」的图片。

然后，运用同一个模型依据给定的文本生成了「I LOVE YOU」的图片。

终究，将 2 个图片兼并在一起，输出如下图：

贾维斯照进现实

项目揭露没几天，贾维斯现已在 GitHub 上收成了 12.5k 星，以及 811 个 fork。

研究者指出处理大型言语模型（LLMs）当前的问题，可能是迈向 AGI 的第一步，也是要害的一步。

因为当前大型言语模型的技能仍然存在着一些缺陷，因而在构建 AGI 体系的道路上面临着一些急迫的挑战。

为了处理杂乱的人工智能使命，LLMs 应该能够与外部模型和谐，以利用它们的才能。

因而，要害点在于怎么挑选适宜的中间件来桥接 LLMs 和 AI 模型。

在这篇研究论文中，研究者提出在 HuggingGPT 中言语是通用的接口。其作业流程主要分为四步：

论文地址：arxiv.org/pdf/2303.17…

首先是使命规划，ChatGPT 解析用户恳求，将其分解为多个使命，并依据其知识规划使命顺序和依靠关系。

接着，进行模型挑选。LLM 依据 HuggingFace 中的模型描绘将解析后的使命分配给专家模型。

然后执行使命。专家模型在推理端点上执行分配的使命，并将执行信息和推理成果记录到 LLM 中。

终究是呼应生成。LLM 总结执行进程日志和推理成果，并将摘要回来给用户。

假如给出这样一个恳求：

请生成一个女孩正在看书的图片，她的姿势与 example.jpg 中的男孩相同。然后请用你的声音描绘新图片。

能够看到 HuggingGPT 是怎么将它拆解为 6 个子使命，并分别选定模型执行得到终究成果的。

经过将 AI 模型描绘纳入提示中，ChatGPT 能够被视为管理人工智能模型的大脑。因而，这一办法能够让 ChatGPT 能够调用外部模型，来处理实际使命。

简单来讲，HuggingGPT 是一个协作体系，并非是大模型。

它的作用便是衔接 ChatGPT 和 HuggingFace，从而处理不同模态的输入，并处理众多杂乱的人工智能使命。

所以，HuggingFace 社区中的每个 AI 模型，在 HuggingGPT 库中都有相应的模型描绘，并将其融合到提示中以树立与 ChatGPT 的衔接。

随后，HuggingGPT 将 ChatGPT 作为大脑来确定问题的答案。

到目前为止，HuggingGPT 现已环绕 ChatGPT 在 HuggingFace 上集成了数百个模型，涵盖了文本分类、方针检测、语义分割、图画生成、问答、文本到语音、文本到视频等 24 个使命。

实验成果证明，HuggingGPT 能够在各种形式的杂乱使命上表现出良好的性能。

网友热评

有网友称，HuggingGPT 类似于微软此前提出的 Visual ChatGPT，似乎他们把最初的主意扩展到了一组巨大的预训练模型上。

Visual ChatGPT 是直接基于 ChatGPT 构建，并向其注入了许多可视化模型（VFMs）。文中提出了 Prompt Manage。

在 PM 的帮助下，ChatGPT 能够利用这些 VFMs，并以迭代的方法接纳其反馈，直到满足用户的要求或到达结束条件。

还有网友认为，这个主意确实与 ChatGPT 插件十分类似。以 LLM 为中心进行语义了解和使命规划，能够无限提升 LLM 的才能边界。经过将 LLM 与其他功能或领域专家相结合，咱们能够创立更强壮、更灵活的 AI 体系，能够更好地适应各种使命和需求。

这便是我一直以来对 AGI 的观点，人工智能模型能够了解杂乱使命，然后将较小的使命分派给其他更专业的 AI 模型。

就像大脑一样，它也有不同的部分来完结特定的使命，听起来很符合逻辑。

参考资料：

twitter.com/1littlecode…

www.youtube.com/watch?v=3_5…

huggingface.co/spaces/micr…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

HuggingGPT 在线演示惊艳亮相，网友亲测图像生成绝了

【新智元导读】浙大 & 微软推出的 HuggingGPT 爆火之后，刚刚敞开了 demo，急不可待的网友自己上手体会了一番。

网友热评

近期文章

近期评论

HuggingGPT 在线演示惊艳亮相，网友亲测图像生成绝了

**【新智元导读】**浙大 & 微软推出的 HuggingGPT 爆火之后，刚刚敞开了 demo，急不可待的网友自己上手体会了一番。

网友热评

近期文章

近期评论

【新智元导读】浙大 & 微软推出的 HuggingGPT 爆火之后，刚刚敞开了 demo，急不可待的网友自己上手体会了一番。