GPT-4炸圈–多模态大模型

前语

在chatGPT如火如荼的时候，OpenAI又上演了王者归来的戏码，重磅发布了GPT-4。GPT-4是作为“帮你写代码”和你“肆意谈天”的chatGPT的根底模型GPT-3的升级版，是一个新的里程碑。

GPT-4是一个大型多模态模型，虽然很多才能还不能达到人类水平，但是某些专业和学术范畴的体现已经能够比美人类高水平了。

GPT-4是OpenAI花了6个月的时刻，运用对抗性测验程序和ChatGPT中堆集的经历迭代调整，模型虽然远非完美，但该模型“比以往任何时候都更具创造性和协作性”，并且“能够更准确地解决难题”。

本文首要内容参阅自官方Blog和技能陈述，具体参阅：

官方Blog地址：GPT-4

openai.com/research/gp…

官方ChatGPTPlus体验地址

chat.openai.com/auth/login?…

官方技能陈述地址

cdn.openai.com/papers/gpt-…

官方视频事例地址

www.youtube.com/live/outcGt…

GPT-4官宣

3月14日晚间，OpenAI宣布发布GPT-4。

OpenAI联合创始人SamAltman表明，它是“迄今为止功能最强壮、最一起的模型”，能够运用图画和文本。

OpenAI表明在曩昔两年里，他们重构了整个深度学习仓库，并与Azure协作，一起规划了一台超级核算机。一年前，OpenAI操练了GPT-3.5，作为整个体系的首次”试运行”，具体来说，咱们发现并修复了一些过错，并改进了之前的理论根底。因而，咱们的GPT-4操练、运行空前安稳，成为咱们首个操练功能能够进行提早准确猜测的大模型。随着咱们继续专注于牢靠扩展，以协助OpenAI能够继续提早猜测未来，并且为未来做好预备，咱们以为这一点，对安全至关重要。

在油管的视频演示中，咱们能够看到GPT-4能够总结文章、写代码、报税、写诗、写网页，十八般武艺样样精通的模样让人震撼。

大模型与多模态

GPT-4这次发布的一大亮点就是不仅能了解文字，还能辨认图片内容、看得懂图梗，让人不由拍案叫绝。至于为什么能辨认图片内容，还能进行了解和推理，就得聊聊多模态。

多模态：简略来说，就是指模型能够处理多种结构/类型的数据，可接收多品种型的数据源，例如GPT-4，它既能够处理你输入的文本，也能够处理你上传的图片。

大模型：大模型又被称作根底模型，最大的特色是大规划，参数量大，数据集巨大，多架构框架复杂，操练机器和保护的本钱都很高。

大模型现今的参数量级应该能到千亿等级的，例如GPT，从GPT-1到GPT-3，模型的参数量从1.1亿个增加到了1750亿个，几年的时刻内增加了一千多倍。

参数量级爆炸式的增加的根因在于Transformer网络提出后，研究人员惊讶地发现，模型参数量的不断提高，会让模型的才能继续进步。于是在人们偏执地笃信下模型中加入越来越多的参数，导致模型规划屡创新高，甚至于参数在底层模型中的含义具体是什么也无法得知，模型准确率提高也依赖于后期的参数的不断调优，被戏称为调参作业。

大模型的另一个特色——“无监督预操练”。大模型参数量大、结构大，还需要很多的数据集进行操练，而对如此巨大的数据进行人工标示显然是困难的。因而，针对大模型的特性，往往会采用“无监督预操练”（亦称“自监督学习”）模式，能够让模型在海量数据中自行学习，无需人类干涉，这让模型能够快速地在操练中生长，进步了操练功率。在预操练后，还会对大模型进行RLHF(人类反应强化学习)，在这个阶段则引进了很多的人工校准，经过数据标示等方法协助模型进化，进一步提高模型的推理才能。

GPT-4才能

在这一环节咱们将见证GPT-4的强壮，在专业考试、图画了解、漫画了解等方面的强壮之处。一起GPT-4的强壮也有些奇妙之处，在简略闲聊时，或许不容易发现GPT-3.5和GPT-4之间的差异。但当使命复杂度达到一定阈值时，GPT-4的牢靠，创造力和强壮的了解才能就突出出来了。

下面咱们就来看下在各种不同的基准上的测验成果，包含模仿最开端那些为人类规划的考试，经过运用最新的揭露测验（就奥数和AP等等考试）还包含购买2022-2023年版的操练考试来进行，OpenAI官方表明他们并没有为这类考试给模型做专门的练习，但考试中小部门的问题会在模型操练进程中存在的，但他们以为下列成果是有代表性的。

模仿考试

传统基准测验

GPT-4大大超过现有的大言语模型，与多数最先进的（SOTA）模型齐头并进，具体指标如下：

GPT-4炸圈--多模态大模型

多言语才能

由于现有的大多数ML基准是用英语编写的，为了开始了解其他言语的才能，咱们运用AzureTranslate将MMLU基准：一套涵盖57个主题的14000个挑选题，翻译成了各种言语。在测验的26种言语中的24种言语中，GPT-4的体现优于GPT-3.5和其他大模型（Chinchilla，PaLM）的英语体现，这种优异体现还包含相似拉脱维亚语、威尔士语和斯瓦希里语等等。

视觉了解

GPT-4能够承受文本和图画输入，答运用户指定任何视觉或言语使命，包含带有文本和照片的文档、图表或屏幕截图等，GPT-4展示了与纯文本输入相似的功能，生成文本输出。官网提到了还能够经过为纯文本言语模型开发的测验技能（包含few-shot和prompt）来增强。图画输入仍然是处于研究阶段没有揭露，咱们来看下几个官方的事例：

能了解图中的梗

了解法语标题，并完好回答

看纸质论文总结摘要

看懂漫画

局限性

虽然才能惊人，不过错觉、推理过错等问题在GPT-4上仍存在。但与早期的GPT模型比较，经过多轮的迭代和优化已显着削减错觉问题的产生，在OpenAI的内部对抗性真实性评价中，GPT-4的得分比最新的GPT-3.5模型高40%，如下图所示（绿色代表GPT-4）：

GPT-4在TruthfulQA等外部基准测验方面也取得了进展，OpenAI测验了模型将事实与过错陈述的对抗性挑选区分开的才能，成果如下图所示：

实验成果表明：GPT-4根底模型在此使命上比GPT-3.5略好，但经过RLHF后操练之后，GPT4效果更显着。

GPT-4数据集还是2021年9月的，所以其对之后发生的事件了解有限，也不会从其经历中学习。它有时会犯一些简略的推理过错，这似乎与这么多范畴的才能不相符，或许过于轻信用户的显着虚假陈述。有时它也会像人类相同在困难的问题上失败，比如在它生成的代码中引进安全漏洞。

GPT-4猜测出错时依然很自信，在或许出错时也不会再次确认。模型的这种特征或许与操练策略有关，官方对比了MMLU子集上上根底预操练模型和PPO模型，左图预操练GPT-4模型的校准图，该模型对其猜测的置信度与正确概率相匹配，虚线对角线代表完美的校准。右图操练后PPOGPT-4模型的校准图，操练后对校准形成很大的影响。

危险及缓解措施

GPT-4引进的图片辨认等新才能方面也带来了新的隐藏危险，为了了解这些危险的程度，团队聘请了50多位来自人工智能安全、网络安全、生物危险、信赖和安全以及世界安全等范畴的专家，对该模型在高危险范畴的行为进行对抗性测验。这些范畴需要专业知识来评价，来自这些专家的反应和数据为缓解措施和模型的改进供给了依据。

GPT-4在RLHF操练中加入了一个额定的安全奖赏信号，经过操练模型拒绝对此类内容的恳求来削减有害的输出。奖赏模型是GPT-4零样本分类器，依据安全相关提示判别安全鸿沟和完成方法。为了避免模型拒绝有用的恳求，团队从各种来源（例如，标示的出产数据、人类的红队、模型生成的prompt）搜集多样化的数据集，在答应和不答应的类别上运用安全奖赏信号（有正值或负值）。

这些措施大大在许多方面改善了GPT-4的安全功能。与GPT-3.5比较，模型对不答应内容的恳求的响应倾向下降了82%，并对灵敏内容恳求的契合安全监管进步了29%。

操练进程

官方资料没有讲模型参数和数据规划，没有讲任何技能原理。简略讲了一下GPT-4根底模型与GPT系列模型一起，GPT-4根底模型的操练是为了猜测文档中的下一个单词，并运用揭露可用的数据（例如互联网数据）以及咱们已获得答应的数据进行操练。这些数据是来自于极大规划的语料库，包含数学问题的正确和过错的解决方案，弱的和强的推理，自相矛盾的和一起的声明，以及品种繁多的意识形态和想法。模型的才能首要来自预操练进程，RLHF不会进步模型测验的考试成绩，有时实践上会下降考试成绩。模型一些目的对齐及风格改变等来自于RLHF和工程规划。

可猜测扩展的深度学习栈

GPT-4项目的一大重点是建立一个可猜测扩展的深度学习栈。首要原因是对于像GPT-4这样非常大的操练模型，做很多的特定模型调整是不可行的。OpenAI开发团队对根底设施进行了开发和优化，在多种规划下都有非常可猜测的行为。为了验证这种可扩展性，经过运用相同的方法操练的模型进行推断，提早准确地猜测了GPT-4在咱们内部代码库（不属于操练集）中的最终损失，但运用的核算量要少10000倍：

准确猜测未来的机器学习才能是安全的一个重要部分，让人们了解对未来体系的期望，这应该成为范畴的一个一起目标。

总结

这一次OpenAI对GPT-4的揭露内容并未涉及模型参数、数据集、技能原理等中心部分，仅揭露了评测成果，识图才能的演示和一些优化后的数据，整体来讲并不是很open。但GPT-4在多模态上的冷艳体现，识图才能，更具创造性和逻辑性的回答又实实在在地圈了一波粉。GPT-4在智能方面的大幅才能跃迁也是让人眼前一亮，在某些专业范畴的才能已达到人类高水平体现，比如托福考试，奥赛等。当然还有10秒内造出一个网站，60秒内完成一个游戏开发的神作。

GPT-4发布的时刻点也比较有意思，正好是百度文心一言的发布会前夕，不知是否是刻意为之，但文心一言的一个立足点是最了解汉语的大模型，让咱们对文心一言的才能拭目而待。

最终我还想问各位老板和开发者，GPT-4产出的代码咱们是否还关怀是高质量代码呢，还是只关怀它的产出功率？？？

微信公众号首发，欢迎关注：江湖修行。第一时刻与本人技能交流。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。