超越ChatGPT:大模型的智能极限

在此前《大型言语模型的呈现才干》、《ChatGPT进化的隐秘》两篇文章中,符尧剖析了大型言语模型的突现才干和潜在优势,大模型所带来的“潜在的”范式转变,并拆解了ChatGPT演进的技能路线图。

在本文中,作者以终为始分析了大模型的智能极限及其演进维度。不同于守株待兔式只追求复现ChatGPT的经典互联网产品思想,而是指出了OpenAI安排架构和顶级人才密度的重要性,更重要的是,共享了模型演化与产品迭代及其未来,考虑了怎么把最深入、最困难的问题,用最创新的办法来处理。

(以下内容经授权后由OneFlow发布,原文:
yaofu.notion.site/e1cd16d1fae…

作者|符尧

爱丁堡大学博士生

yao.fu@ed.ac.uk

2022 年 12 月,ChatGPT 横空出世。OpenAI 用一个核弹级的成果改变了科学研讨和工程应用的范式。在我国,ChatGPT 遭到了广泛的重视与深入的评论。

在曩昔的一个月里,我造访各大高校、研讨院、大厂、创业公司和风投。从北京到上海到杭州到深圳,跟一切头部的玩家们悉数聊了一遍。The Game of Scale 在我国已然拉开,风暴中心的玩家们,在已知国内技能和生态与国际前沿的巨大距离下,怎么做成这件事?谁能做成这件事?

秦失其鹿,全国共逐之。

——— 《史记淮阴侯列传》

1

三种不同的答案

我每接触到一个创业公司,都会问同一个问题:”ChatGPT 在那里,你们想做什么?“ 我大约能收到三种不同的答案。

1.1 做我国的 ChatGPT

第一个答案很明确,要做我国的 ChatGPT。由于它就在那里,所以想要复现,想要国产化这是很经典的产品导向中文互联网思想。 这种思路也是曩昔二十年,中文互联网常见的商业模式:首要硅谷做出来一个东西,然后咱们把它抄过来。

但这儿的问题是,首要,ChatGPT 可不像打车软件,复现难度完全不可同日而语。光从人的视点看,GPT 的发生,是这个国际上最顶尖的科学家和工程师们从 2015 年开端就不断研讨的成果。

OpenAI 的首席科学家 Ilya Sutskever深入地信任 AGI 必定能实现。作为图灵奖得主 Geoffery Hinton 的大弟子,从 2007 年就开端研讨深度学习。他的 citation 有 37 万,发过的文章精准踩中了曩昔十年 Deep Learning 的一切要害节点。即便是如此强大的团队,从 GPT 2 到 GPT 3.5 也花了四年的时刻,它的科学与工程的难度可想而知。

一起,初代 ChatGPT,是 OpenAI 在 GPT 3.5 的根底模型上,花了两星期时刻对着 dialog 做 finetuning 之后随手扔出来的 demo。这儿真实强的并不是 ChatGPT 这一个产品,而是底下的 GPT 3.5 根底模型。这个模型还在不断地演化,GPT 3.5 系列在 2022 年更新了三个大版别,每个大版别都显着强于前一个版别;同样地,ChatGPT 发布两个月一共更新了四个小版别,每个小版别都在单个的维度上比前一个版别有着显着的改善。OpenAI 的一切模型都在持续不断的演化,随时刻推移越来越强。

这也就意味着,假如只盯着当前 ChatGPT 这一个产品,无异于守株待兔。 当 ChatGPT 呈现的时分,它对已有的语音帮手们形成了降维打击;假如看不到根底模型的演化,即便花个一两年辛辛苦苦做出一个类似的东西,那时分 OpenAI 的根底模型也在持续变强,假如他们接着产品化,以新的更强的根底模型 finetune 到一个更强的产品,莫非要再被降维打击一次吗?

守株待兔的做法是行不通的。

1.2 做我国的 OpenAI

第二种答案是,要做我国的 OpenAI。给出这个答案的玩家,跳出了经典中文互联网产品思想。他们不止看到单个产品,并且还看到了这个产品背面,根底模型不断演化的强大驱动力,来源于顶级人才的密度和先进的安排架构。

顶级人才的密度:不是一个人集资源带队然后把使命按层级打包分配给底下的人,而是一群顶级的集 science 和 engineering 于一身的人们一起协作;

先进的安排架构:Language 团队与 Alignment 的团队彼此合作迭代,然后底下 scaling 团队和 data 团队帮忙提供根底设施,每个 team 都十分小,但方针明确途径明晰,高度集中资源,朝着 AGI 进发。

所以,假如要做这件工作,不只要看到产品,还要看到它背面的人才团队和安排架构。按稀缺程度排名的话,人 > 卡 > 钱。

但这儿的问题是,不同的土壤对创新的鼓舞程度是不一样的。在 OpenAI 刚创建的 2015 年,它的投资者们都信任 AGI ,即便当时看不到什么盈余的点。现在 GPT 做出来了,国内的投资者们也都信了 AGI,但信任的点或许也不一样:到底是信 AGI 能挣钱,还是信 AGI 能推动人类开展?

更进一步地,即便 OpenAI 就发生在这儿,明天就呈现,但他们跟微软达成的 deal,能否跟国内的云核算厂商达成呢?大模型的练习和推理都需求极大的本钱,需求一个云核算引擎作为支撑。微软能够倾尽一切,让整个 Azure 给 OpenAI 打下手,这个换到国内,阿里云有或许给一个创业公司打下手吗?

安排架构很重要,只有顶级的人才和先进的安排架构才干推动智能的不断迭代与进化;但它同样需求跟地点的土壤做适配,寻觅能够 flourish 的办法。

1.3 探究智能的极限

第三种答案是,要探究智能的极限。这是我听到的最好的答案。它远超守株待兔式的经典互联网产品思想,也看到了安排架构和顶级人才密度的重要性,并且更重要的是它看到了未来,看到了模型演化与产品迭代,考虑着怎么把最深入,最困难的问题用最创新的办法来处理。

这就涉及到了考虑大模型的极限思想。

2

极限思想

观察现在的 ChatGPT / GPT-3.5 ,它显着是一个中心状态,它还有许多能够加强,并且立刻就能加强的点,包括:

更长的输入框:开端的时分,GPT 3.5 的上下文最长到八千个 token;现在的 ChatGPT 上下文建模的长度似乎现已过万。并且这个长度显着能够接着添加,在融入 efficient attention 和 recursive encoding 的办法之后,context length 应该能够接着 scale 到十万,甚至百万的长度;

更大的模型,更大的数据:模型的巨细还没有到极限,MoE 能够接着把模型 scale 到 T 的量级;数据的巨细还没有到极限,人类反馈的数据每天都在添加;

多模态:在添加了多模态数据(音频,图片),特别是视频数据之后,整体与练习数据的巨细能够再增大两个量级,这个能够让已知的才干接着按 scaling law 线性添加,一起还有或许持续呈现新的呈现才干。比方或许模型在看过各种几许形状的图片,以及看过代数题之后,或许会主动学会做解析几许;

专业化:现有的模型在文科上大约相当于研讨生水平,但在理科上相当于高中或大一大二的学生水平;已有的作业现已证明咱们能够把模型的技能点从一个方向挪到另一个方向,这就意味着即便不做任何 scaling,咱们仍然能够在经过献身其他方面才干的情况下,把模型朝着方针方向推动。比方献身掉模型的理科才干,把它的文科才干从研讨生推到专家教授的水准。

以上四点只是现阶段能够看到的,立刻就能够加强但暂时还没有加强的点,跟着时刻的推移和模型的演化,会有更多能够被 scale 的维度进一步表现出来。这意味着咱们需求有极限的思想,要考虑当咱们把能够拉满的维度悉数拉满的时分,模型会是什么姿态。

2.1 能够拉满悉数拉满

模型的输入框能够接着加长,模型的巨细能够持续增大,模型的数据能够持续增多,多模态的数据能够交融,模型的专业化程度能够持续增高,一切这些维度能够持续往上拉,模型还没有到极限。极限是一个进程,在这个进程中模型的才干会怎样开展呢?

Log-linear 曲线:一部分才干的添加会遵循 log-linear 的曲线,比方说某项使命的 finetuning。跟着 finetune 数据的指数添加,模型所对应的 finetune 的使命的才干会线性添加。这部分才干会可猜测地变得更强;

Phase change 曲线:一部分才干会跟着 scaling 持续呈现,比方说上文中的模型做解析几许的比如。跟着能够被拉满的维度被不断拉满,新的,难以猜测的呈现才干会接着呈现;

多项式曲线? 当模型强到必定程度,与人类 align 到必定程度之后,或许一些才干的线性添加,所需求的数据,会突破指数添加的封闭,而降低到多项式的量级。也就是说,当模型强到必定程度之后,它或许不需求指数级的数据,而是只需求多项式级的数据,就能够完结泛化。这能够从人类的专业学习中观察到:当一个人还不是领域专家的时分,ta 需求指数级的数据来学习领域的常识;当一个人现已是领域专家的时分了,ta 只需求很少量级的数据就自己爆发出新的创意和常识。

所以,在极限思想下,把一切能拉满的维度悉数拉满,模型注定会越来越强,呈现越来越多的呈现才干。

2.2 反推中心进程

在考虑清楚极限的进程之后,就能够从极限状态往后反推中心进程。比方说,假如咱们希望添加输入框的巨细:

• 假如希望把模型的输入框从千的量级添加到万的量级,或许只需求添加显卡数量,进行显存优化就能实现;

• 假如希望接着把输入框从万的量级添加到十万的量级,或许需求 linear attention 的办法,由于此刻加显存应该也架不住 attention 运算量随输入框长度的二次添加;

• 假如希望接着把输入框从十万的量级添加到百万的量级,或许需求 recursive encoding 的办法和添加 long-term memory 的办法,由于此刻 linear attention 或许也架不住显存的添加。

以这种方法,咱们能够反推不同阶段的 scaling 需求怎样的技能。以上分析不止适用于输入框的长度,也适用于其他因素的 scaling 的进程。

这样的话,咱们能够得到明晰的从现阶段的技能到 scaling 极限的每个中心阶段的技能路线图。

2.3 按模型演化进程产品化

模型在不断演化,但产品化不需求等到最终那个模型完结 — 每逢模型迭代出来一个大的版别,都能够产品化。以 OpenAI 的产品化进程为例:

• 2020 年,初代 GPT 3 练习完结,敞开 OpenAI API;

• 2021 年,初代 Codex 练习完结,敞开 Github Copilot;

• 2022 年,GPT-3.5 练习完结,以 dialog 数据 finetune 成 ChatGPT 然后发布。

能够看到,在中心阶段的每一个重要版别,模型的才干都会增强,都存在产品化的时机。

更加重要的是,依照模型演化进程产品化,能够在产品化的阶段适配商场。学习 OpenAI 的安排架构来推动模型演化本身,但产品化能够依照本乡商场的特征来做。这种方法或许能够既学到 OpenAI 的先进经验,又防止水土不服的问题。

3

人工智能显着超越人类的才干

到目前为止,咱们评论了要用模型演化的视角来分析模型,要用极限的思想评论模型的演化进程。现阶段立刻能够加强的点包括了输入框的长度,更大的模型和数据,多模态数据和模型的专业化程度。现在让咱们再把视界放得更长时间些,考虑在更大的时刻和空间中,模型怎么进一步地往极限推。咱们评论:

并行感知:一个人类研讨员一次次序地读四五篇论文现已是极限,但模型输入框变长之后,能够在极短的时刻内并行阅览一百篇论文。这意味着,模型对外部信息的感知才干远超人类一个数量级;

回忆遗传:人类的演化进程中,子代只承继父代的基因,但不承继父代的回忆,这意味着每一次生殖都需求重启一次;在模型的演化进程中,子代能够承继父代的回忆,并且这个承继的程度可控:咱们能够设置子代承继 100%,50%,20% 的回忆,或清空回忆,这意味着父代的经验和技能能够不断累积;

加速时刻:人类彼此沟通的速率是遭到人类说话的物理速度限制的,而模型彼此沟通的速率能够远快于人类,这意味着模型能够经过彼此沟通来处理人类数据随时刻线性添加的问题;人类演化的进程遭到物理时刻的限制,模型的演化能够比人类的物理时刻快上几个数量级,这意味着模型的前进速度能够远快于人类;

无限生命:一个人的生命有限,百年之后终归尘土,但模型的权重只要不丢失,就能够不断地演化。

从这些视点来说,人工智能超越人类并不是一件不可思议的工作。这就引发了下一个问题:

怎么驾驭远超人类的强人工智能?

这个问题,是 Alignment 这项技能真实想要处理的问题。

4

Alignment 对齐

当前阶段,模型的才干,除了 AlphaGo 在围棋上超越了最强人类之外,其他方面的 AI 并没有超越最强的人类(但 ChatGPT 在文科上或许现已超越了 95% 的人类,且它还在持续添加)。在模型还没超越人类的时分,Alignment 的使命是让模型符合人类的价值观和希望;但当模型持续演化到超越人类之后,Alignment 的使命就变成了寻觅驾驭远超人类的智能体的办法。

4.1 Alignment 作为驾驭远超人类的智能体的办法

一个明显的问题是,当 AI 超越人类之后,还能够经过人类反馈让 ta 更强 / 更受约束吗?是不是这个时分就现已管不了了?

不必定,即便模型远超人类,咱们仍然又或许驾驭 ta,这儿的一个比如是运动员和教练之间的联系:金牌运动员在 ta 的方向上现已是最强的人类了,但这并不意味着教练就不能练习 ta。相反,即便教练不如运动员,ta 仍然能够经过各种反馈机制让运动员变得更强且更有纪律。

类似地,人类和强人工智能的联系,在 AI 开展的中后期,或许会变成运动员和教练之间的联系。这个时分,人类需求的才干并不是完结一个方针,而是设定一个好的方针,然后衡量机器是否满足好地完结了这个方针,并给出改善定见。

这个方向的研讨还十分初步,这个新学科的姓名,叫 Scalable Oversight。

4.2 Alignment 与安排架构

在通往强人工智能的路上,不只是需求人类与 AI 对齐,人类与人类,也需求高度对齐。从安排架构的视点,alignment 涉及到:

Pretraining 团队与 instruction tuning – alignment 团队之间的对齐

这两者应该是一个彼此迭代的进程,pretraining 团队不断地 scale 根底模型,alignment 团队为根底模型做 instruction tuning,一起用得到的成果反向指导 pretraning 团队的方向。

Pretraining / Alignment 团队与 Scaling / Data 团队的对齐

scaling 担任为 pretraining / alignment 做好根底设施,data 做好高质量数据与人类反馈数据。

创业公司与 VC 的对齐

AGI 是一个困难的工作,需求长时间投入,这需求各个方面的人都有满足的耐性和满足高的视界。烧一趟热钱后催产品化然后占满商场的逻辑在大模型年代应该现已不复存在了。大模型的游戏要求 ta 的玩家们有满足高的视界与格局,模型的演化会让有满足耐性的,结壮干事人们在长时间得到丰厚的报答,也会让只看短期守株待兔的人们一次又一次被降维打击。

5

结语

在 2017 年,我刚刚入行 NLP 的时分,花了很大的力气做可控生成这件工作。那个时分所谓的 text style transfer 最多就是把语句情感分类改一改,把 good 改成 bad 就算是完结了 transfer。

2018 年我花了很多的时刻研讨怎么让模型从语句结构的视点修改语句的风格,一度误认为风格转化是几乎不或许完结的工作。当今 ChatGPT 做风格转化几乎信手拈来。那些从前看似不或许完结的使命,从前极端困难的工作,今天大言语模型十分轻松地就能完结。

在 2022 年一整年,我追寻了从 GPT-3 到 GPT-3.5 的悉数版别迭代,亲眼看到它一步步地从弱到强不断演化。这个演化速度并没有变慢,反而正在加速。那些原先看来科幻的工作,现在现已成为实际。谁会知道未来会怎样呢?

彼黍离离,彼稷之苗。

行迈靡靡,中心摇摇。

彼黍离离,彼稷之穗。

行迈靡靡,中心如醉。

——— 《诗经 黍离》

欢迎 Star、试用 OneFlow 最新版别:
github.com/Oneflow-Inc…