GPT-4 剑指多模态，前有谷歌 PaLM-E，AI 格局要变？

本文首发自 HyperAI超神经微信大众号~

美东时刻 3 月 14 日，OpenAI 重磅推出大型多模态模型 GPT-4。GPT-4 是 ChatGPT 和 Bing AI 谈天机器人背面的技能根底。OpenAI 称，GPT-4 能承受图画和文本输入，输出文本内容，尽管在许多实际场景中的才能不如人类，但在各种专业和学术基准测验中已体现出人类水平。

GPT-4 突袭落地：三大特性吸睛

GPT-4 此次更新，主要有三个飞跃式提高的新特性：文字输入约束提高、具有识图才能以及更强的推理才能。

内容更长更丰富

据 OpenAI 说法，GPT-4 可以处理超过 25,000 个单词的文本。Medium 作家 Michael King 对此谈道，此特性允许创建长篇内容，例如文章和博客，可以为企业和个人节省时刻和资源。

此外，GPT-4 对许多文本的处理使扩展对话成为可能，这意味着，在服务业等职业中，人工智能谈天机器人可以对客户的查询供给更详细、更具洞察力的呼应。一起，此特性还能进行高效地文档搜索和剖析，从而成为金融、法律和医疗保健等职业的有利东西。

更具推理才能

OpenAI 表明，GPT-4 生成的答案错误更少，正确性要比 GPT-3.5 高 40%。一起，GPT-3.5 与 GPT-4 在闲聊时不同不大，但若使命够复杂，GPT-4 要比 GPT-3.5 更可靠、更有创意且能处理更多微妙指令。据悉，GPT-4 参加了多种基准考试测验，其间在 Uniform Bar Exam、LSAT 等考试中，得分要高于 88% 的应试者。

亮眼新特性：多模态

除了答题才能更胜一筹之外，GPT-4 另一个亮眼的特性便是可以承受文本和图画形式的输入，图画类型可以是照片、图表以及屏幕截图等。比方以下例子：

问题：这幅图有什么好笑的? 逐条描述它。

GPT-4 答复：该图画显现了一个包含三个图片的「 Lightning Cable 」适配器。图1：一个智能手机与 VGA 连接器（一个大型，蓝色，15 针连接器一般用于计算机显现器）刺进其充电端口。图2：「 Lightning Cable 」适配器的封装，上面有一个 VGA 连接器的图片。图3：VGA 连接器的特写镜头，最后是一个小型 Lightning 连接器（用于为 iPhone 和其他苹果设备充电）。这张图片中的诙谐来自于将一个过期的大型 VGA 连接器刺进一个小型的现代智能手机充电端口的荒谬性。

需求留意的是，此特性还处于研究者预览版别，并没有对外敞开，OpenAI 没有泄漏敞开时刻。

「它并不完美」

在介绍 GPT-4 的新功能的一起，OpenAI 也坦言了它的一些局限性。与之前版别的 GPT 相同，GPT-4 仍然存在 social biases、hallucinations 以及 adversarial prompts 等问题。换句话说，目前来看 GPT-4 并不完美。但 OpenAI 也表明，这些都是他们正在努力解决的问题。

多模态模型：谷歌抢先上「前菜」

尽管多模态是 GPT-4 一大亮眼特性，但不得不说，GPT-4 并不是唯一的多模态模型。

微软 AI 技能专家 Holger Kenn 介绍所谓多模态模型，是其不只可以将文本相应地翻译成图画，还可以翻译成音频和视频。而早在本月初，谷歌就已发布史上最大的视觉言语模型——PaLM-E (Pathways Language Model with Embodied)，一个可用于机器人的嵌入式多模态言语模型。PalM-E 整合了 540B 的 PaLM 言语模型和 22B 的 ViT 视觉模型，因而具有 562B 参数。

研究人员在多个使命，包含机器人操作规矩、视觉问答和图画字幕中等进行了端到端的训练，评价结果表明该模型可以能有效地解决各种推理使命，并在不同的观察模态和多个实体上体现出了「正向搬运 (positive transfer)」，并且该模型除了承受机器人使命训练，还在视觉-言语使命上有超卓的体现。

展示示例中，当人类宣布「把抽屉里的薯片拿给我」的指令时，PaLM-E 可以为一个装有机械臂的机器人生成一个举动指令并执行举动，其通过剖析来自机器人摄像头的数据实现，而无需对场景进行预处理。

除了赋予机器人以上才能，PaLM-E 本身也是视觉言语模型，可以看图说故事，或者依据图片内容答复问题。

多模态模型同等「iPhone 」发布？

现在看来，整个 AI 范畴正在紧锣密鼓地开展军备赛。面临 ChatGPT 的爆火，谷歌紧迫发布 Bard 步步紧逼，近来又再次反击，敞开自家的大言语模型 API 「PaLM API」，一起还发布了一款帮助开发者快速构建 AI 程序的东西 MakerSuite。

尽管 OpenAI CEO Sam Altman 前不久在承受采访时，仍对 GPT-4 的发布时刻坚持神秘，宣称「咱们要在发布时，确定它是安全且负责任的」，但 GPT-4 这一波突袭，不免让人猜想是否是因为面临谷歌等巨头不断地反击和围歼，迫使它的步伐加速。

需求留意的是，Sam 采访中还谈到一个观念，人工智能的下一个进化阶段正是多模态大模型的到来。「我以为这将是一个大趋势…更普遍的是，这些强壮的模型将成为真实的新技能渠道之一，这是自移动渠道以来咱们没有拥有过的。」

此次 GPT-4 的重磅发布，是否标志着多模态模型时代正式到来，尚需求时刻证明，但其强壮的才能已经开始让许多开发者甚至普通人忧虑自己是否会被其取代。这一点，或许微软德国 CEO Marianne Janik 几天前的揭露言论可以作为答案，她以为当时 AI 开展就像当年「iPhone 出现」，一起，她也明确表明这不是要取代工作，而是要以与曾经不同的方法完结重复性使命。

「变革会使得传统的工作模式发生改变，但咱们也应该看到，这种改变增加了许多新的可能性，因而，也会出现让人兴奋的新职业。」

参阅链接：

[1]openai.com/research/gp…

[2]venturebeat.com/ai/openai-r…

[3]palm-e.github.io/

[4]medium.com/@neonforge

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。