一文读懂ChatGPT的工作原理：大语言模型是个啥？它到底咋工作的？

继AI绘画后，ChatGPT横空出世。聊天、翻译、案牍、代码……ChatGPT的功能如此强壮，以至于连马斯克都认为“咱们离强壮到风险的AI不远了。”

在感慨ChatGPT如此强壮的同时，人们也开始对ChatGPT的作业原理产生了好奇：ChatGPT是什么？它到底是怎样运行的？怎样才能丝滑地与它对话呢？

想要了解ChatGPT是什么，需求关注它背面的GPT模型。GPT模型是一个由OpenAI 练习的大言语模型。

一、大言语模型是什么？

大言语模型（Large Language Model）是指在海量文本数据上练习，经过无监督、半监督或自监督的方法，学习并把握通用的言语常识和才能的深度神经网络模型。

从下图中，咱们不难看出，这些大言语模型的参数计数都是数千亿：

换个简略了解的说法，“读书破万卷，下笔如有神”在必定意义上反映了大言语模型的运作形式。在海量文本数据上练习是读了万亿书本，吸收了许多的常识，在此根底上就能够按照用户的需求进行答复、创造、总结与分析。

大言语模型在经过特定练习后可认为企业带来意想不到的或许性：

1、减少人工劳动和成本 大言语模型能够让企业在开展进程中完成自动化，如顾客服务、内容创造、欺诈检测等，这不只能够降低人力与时间成本，还能将职工从高重复度的作业中解放出来，从事更需求人类专业常识的重要作业。

2、进步客户满意度 根据大言语模型的聊天机器人不只能够为客户提供全天候的服务，还能经过处理许多的数据来了解客户的行为和偏好，然后提供个性化服务。

3、提供决策的准确性 大言语模型对许多数据的处理，能够让企业敏捷从复杂的数据集中提取需求，然后进步运营效率，更快地解决问题，并做出更准确的商业决策。

4、进步使命的准确性 大型言语模型能够处理许多的数据，这导致猜测和分类使命的准确性进步。这些模型使用这些信息来学习形式和关系，这有助于它们做出更好的猜测和分组。

但咱们不得不承认大言语模型相同存在着一些坏处：

1、认知规模有限 大言语模型的才能受限于它们的文本练习数据，这意味着它们无法了解练习数据以外的文本，如调休。它极有或许接触到虚伪信息、种族、性别和性的成见等文本练习，这会导致大言语模型产出种族主义或性别歧视的评论。

2、输入token有限 每个大言语模型的内存是有限的，所以它只能承受必定数量的token作为输入。例如，ChatGPT的约束是4096个（大约3000个词），假如超越这个限定，GPT就无法对输入作出反应。

3、系统成本高 大型言语模型的开发和练习都需求许多投资，包含核算机系统、人力资本和电力。据估量，ChatGPT10轮的练习，仅电费成本就高达1200万人民币，这并不是随意一个企业能够承担得起的。

4、泛化才能弱 泛化才能指机器学习算法对新鲜样本的适应才能。学习的意图是学到隐含在数据背面的规矩，对具有同一规矩的学习集以外的数据，经过练习的网络也能给出适宜的输出。大言语模型虽然能够在多个使命上表现出色，可是它们也简略遭到输入的影响而输出不合理或许错误的内容。

在了解了大言语模型后，咱们距GPT的作业原理又进了一步。

二、GPT背面的使用逻辑

GPT的全称是“Generative pre-trained transformer”，翻译一下便是“根据Transformer的生成式预练习模型” 。让咱们把这些词拆分来看：

1）“Generative”

“Generative”指这个模型具备生成自然言语文本的功能。也便是说，这个模型能够生成一段内容，还能让你看懂。比方给它几个关键词，能够经过这些关键词自动生成一段话或许一篇文章。

当然，或许有人会说“之前那个狗屁不通生成器也能读，那他们的区别在哪里？”实际上，“狗屁不通（GPBT）”仅仅一个文本生成器，对文本的连贯性和意义要求并不高；而GPT生成的内容则有着高连贯性和可读性的要求。所以咱们会发现，先不说GPT生成的内容能不能解决实际问题，至少读起来是入情入理的。

2）“pre-trained”

“pre-trained”意为“预先练习好的”。一般来讲，在使用这种技能时，会需求先将许多的文本数据输入到模型中练习，让模型在必定程度上把握了言语的语法规矩和表达方法，这个提前输入进行练习的进程就被称为预练习。

咱们也能够将上述进程简略粗犷地了解为“题海战术”。想想咱们在各类学习中，常常经过题海战术对标题类型、考察的根底常识以及逻辑进行深化了解，才能在面对新的题型时，经过调用自己所学的常识交出相对合理的答卷。相同，GPT也是在这种“题海战术”中杀出重围的。

3）“transformer”

最终说到“transformer”，这是Google 的研究者在《Attention Is All You Need》中提出的概念，咱们能够先将它简略了解为“转换器”。Transformer的基本原理是Encoder（编码）和Decoder（解码），也便是先将输入的内容转换为核算机能了解的内容，再将核算机了解的内容转换为咱们人类能了解的内容。

但在言语转化的进程中，还会呈现一个问题：歧义。咱们日子中也会有许多呈现歧义的状况，比方“我买了一斤苹果”和“我买了个苹果新产品”。那么问题来了：咱们怎样判别这两句中的苹果指的是某种生果仍是某个电子设备？

答案估量也没啥争议：结合苹果旁边的“一斤”和“新产品”就能确定在不同上下文中的“苹果”代表了什么意义。而GPT能够了解咱们输入的内容，关键也在于此。Transformer在编码和解码的根底上，引入了“Multi-headed Attention（多头注意力）”的概念。多头注意力便是为了让模型在处理输入输出的内容时，更关注内容中的某个或某几个词语，并对它们进行加权处理，然后揣度其准确意义，完成上下文学习。

用一句话总结上面讲的内容，便是“GPT能读懂你说的话了”。

既然懂了发问的内容，那接下来GPT又是怎样答复出你想要的答案的呢？

前面咱们讲了GPT是“预先练习好的”，所以当它了解了你想要什么之后，便会自动挑选当下最适合的一个内容，然后不停地再输入、输出，最终生成一段完整、具有高匹配度的内容。

比如：请给我描绘一个西瓜第一次输入：请给我描绘一个西瓜输出：西瓜第2次输入：请给我描绘一个西瓜：西瓜输出：西瓜是第三次输入：请给我描绘一个西瓜：西瓜是输出：西瓜是一种 …… 第N次输入：…… 输出：……

最终呈现以下内容：

GPT便是经过这种不断地“输入-匹配-挑选-输出-再输入”的进程，和咱们进行问答的交互。而被咱们熟知的 ChatGPT则是根据GPT模型调整而成的对话生成模型，在本质上，其作业原理和GPT是相同的。

三、怎样让ChatGPT不说废话？

那么，了解了ChatGPT及GPT模型的运行方法，它就能真正为咱们所用吗？答案显现是否定的。许多人会抱怨，它的答复很空泛，有时甚至会出错。

当然，人工智能能够了解人类的言语，但或许还不能精准了解人类的意图，所以成功的人机交互才会得到咱们想要的答案，也便是说GPT这类模型就像咱们的宠物相同，能够听懂咱们说的话，但前提是咱们需求跟它“好好说话”。

来看一个比如：请介绍一下华山。（PS：本文一切问答，均来自禅道的OpenAI插件：神奇小海螺）

从上面两个图片中能够发现，咱们的提示词不同，小海螺给出的答复也不同。那咱们应该怎样发问？这里引用常青教师总结而成的一个提示词模板（亲测非常有用）：ChatGPT

（指路公众号：常青说）

经过这个技巧，咱们现在能够改一下上面的提示词：

“假如你是一名导游，现在你要带一个10人的旅游团前往华山，请给一份华山的解说词。请注意，由于旅游团中有小朋友，所以解说词请用生动有趣的内容安排，最好还能加一些故事和比如。”

很明显，这样一问，小海螺就能给出比较契合咱们要求的答复。假如还想让它的答复更精准，那就需求持续再补充其他的细节啦。

总之，咱们期待着人类对自然言语的处理技能达到必定程度时，这些人工智能的回复质量能带给咱们更大的惊喜；在另一方面，对于它们的答复，咱们也要有根底的辨别才能。

罗翔教师曾说：“人跟人工智能最大的不同，在于人除了有理性还有爱情。咱们永久不用忧虑它会取代咱们，由于咱们是人，是万物之灵。”所以，咱们不只要把ChatGPT一类的人工智能使用到极致，充分去拥抱它，还要练习自己作为人类原生的、不依赖任何工具的根底才能、思维才能以及创新才能。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。