克雷西 发自 凹非寺 量子位 | 公众号 QbitAI

对于ChatGPT的作业原理,一个常见的解释是依据统计学规则猜测下一个词。

但最近一位叫Jacob Bayless的工程师用数学办法得出惊人定论:

若是如此,所需的信息量足以让整个世界都坍塌成黑洞

这一数据量是500008000,依据贝肯斯坦上限(Bekenstein bound)原理,假如把这些信息分配到空间傍边,所需求的信息密度现已远超世界能接受的最大值。

而这仅仅是把数据存储起来的消耗,更不必说还要进行运算了。

数学论证GPT-4不是随机鹦鹉:真如此的话整个宇宙都会坍缩

而ChatGPT与单纯统计猜测的区别,能够做这样的类比:

假如天文学家经过前史观测记录推算出月食的周期,这能够算是统计学。

但当他们总结出牛顿万有引力定律的时候,就现已逾越了统计学。

什么是“随机鹦鹉”

一个撒播很广的说法,所谓大言语模型实际上相当于一个“随机鹦鹉”——

与咱们观察其输出时的状况相反,言语模型仅仅将其在巨大的练习数据中观察到的语素胡乱拼接在一起,依据概率生成文本,但不清楚文字背面的任何含义,就像一个随机的鹦鹉。
出自论文On The Dangers of Stochastic Parrots: Can Language Models Be Too Big

数学论证GPT-4不是随机鹦鹉:真如此的话整个宇宙都会坍缩

这对过去的言语模型,或许的确成立。

比方从前盛行的n-gram算法。

比方当咱们在搜索引擎中进行搜索时,呈现的联想词就能用此办法完成。

数学论证GPT-4不是随机鹦鹉:真如此的话整个宇宙都会坍缩

具体来说,下面的三行文本中,第一行纯粹是随机生成,第二行考虑了单词在英语中全体的呈现概率,第三行则考虑了单词在前一个词后边呈现的概率。

n = 0: RECEIVE FALL SURPRISED FRIDAY INGREDIENT…
n = 1: REPRESENTING AND SPEEDILY IS AN GOOD…
n = 2: THE CHARACTER OF THIS POINT IS THEREFORE…

不难看出,跟着n值的升高,文本越来越接近人类言语。

而n-gram模型底子不需求把握其间的语义或理解其间的抽象概念,就能生成像模像样的语句。

据此有人猜想,GPT-4会不会也仅仅一种高档的n-gram呢?

Bayless提出,GPT必须学会抽象才能有如今的作用,至少GPT-4必定如此。

GPT-4不仅仅“随机鹦鹉”

要证明这一点,能够先看下棋机器人的例子。

假如有一种下棋机器人,存储了巨量棋谱数据,对于每个棋局都能引荐下一步。

那它就能经过“背谱法”仿照其他任何棋手或程序的下法。

比方Stockfish是最先进的国际象棋程序,假如仅经过对战而不看源码,是无法确定Stockfish是否在背谱。

但实际上,包含一切景象和过程的棋谱数据量可能超到2154。

而Stockfish的程序只占用了不到50MB的空间,底子不可能存下需求的一切棋谱。

所以Stockfish必定是经过更高档的办法来完成下棋的。

人类言语的复杂度远超过棋类游戏,因此GPT的数据量更是同理。

数学论证GPT-4不是随机鹦鹉:真如此的话整个宇宙都会坍缩

仅在是上一代的GPT-3的token字典中就有超过5万token。

假如对每个词都逐个树立统计信息,n-gram模型中n值将高达8000。

届时,需求存储的景象数量将到达500008000。

正如文章最初所提到,这简直是天文数字,足以让整个世界坍缩。

因此,GPT是“随机鹦鹉”的猜想在理论上得到了必定程度的驳斥。

“随机鹦鹉”达不到的高度

仅在理论上进行阐明是不充分的,因此研究人员还进行了两个试验,意图证明大模型在学习过程中现已抽象出了算法。

第一个试验关于一道经典的农民过河问题。

一个农民有一条船,和狼、羊、菜,农民要把这3样东西运到河到另一边,农民每次最多只能经过这个船运一样东西,要避免狼吃羊、羊吃白菜(即不能在没有农民在的状况下一起在同一岸边),该怎么过?

研究人员将这个问题中的农民、船、河别离替换成地球人、虫洞和银河系。

狼、羊和菜则别离换成火星人、金星人和月球人。

图片

替换的意图是因为互联网上不太可能呈现相似语料,能够判断大言语模型是不是真的把握了通用办法。

假如GPT不是“随机鹦鹉”,那么它至少不会犯下只要“随机鹦鹉”才会犯的错误。

GPT-4针对替换后的问题给出了正确的答复,GPT-3.5则没有。

数学论证GPT-4不是随机鹦鹉:真如此的话整个宇宙都会坍缩

但它们并没有犯研究人员料想的“鹦鹉”错误——即在答复中呈现狼、船、河等已被替换掉的词语。

答复中使用的语句,也无法在互联网中被检索到。

数学论证GPT-4不是随机鹦鹉:真如此的话整个宇宙都会坍缩

这些现象都证明了现在的大言语模型的生成方法现已逾越了“概率猜测”。

第二个试验则是数字排序。

假如让GPT学习数字排序,它们究竟是只会记住给出过的数字次序,仍是真的研究出排序算法呢?

数学论证GPT-4不是随机鹦鹉:真如此的话整个宇宙都会坍缩

其实只要从GPT的输出傍边就能够看出来了。

假如从1-100中随机挑选10个数字,并将其次序打乱,将总共有这么多种景象:

数学论证GPT-4不是随机鹦鹉:真如此的话整个宇宙都会坍缩

假如再考虑数字的重复呈现,又或者数字的数量发生变化,底子不可能存储如此之多的景象。

因此,只要GPT能够针对未知的排序问题给出正确的答复,便能够阐明它们是真的研究出了排序算法。

研究人员练习了一款特斯拉前AI总监Andrej Kaparthy创造的言语模型nanoGPT,专门让它做数字排序。

结果显示,跟着练习步数的添加,模型给出的数字次序越来越完美。

虽然在练习步数到达16万左右时突然呈现了大量错误,但也很快得到了纠正。

这阐明这款模型并不是仅仅依据学习的素材对未知的数字进行排序,而是现已把握了背面的办法。

数学论证GPT-4不是随机鹦鹉:真如此的话整个宇宙都会坍缩

这个测试仅仅在一台笔记本电脑、算力非常有限的GPU上进行的。

更不必说GPT-4了。

参考链接:
jbconsulting.substack.com/p/its-not-j…