零、前语

本文为稀土技能社区首发签约文章,30天内禁止转载,30天后未获授权禁止转载,侵权必究!

欢迎访问

个人博客:conqueror712.github.io/

知乎:www.zhihu.com/people/soeu…

Bilibili:space.bilibili.com/57089326

:/user/129787…

留意,本文不触及太多杂乱的公式与数学推导,初学者或许像笔者相同数学不好的读者能够定心阅览!

论文链接:arxiv.org/abs/2303.18…

一、引言与摘要

Q:这些年,咱们在做什么?

A:自从图灵测验在1950年代提出以来,人类一直在探求怎么让机器把握言语智能。为了了解和把握言语,开发才能强的人工智能算法面临着重大应战。言语模型LM在曩昔的二十年中被广泛研讨,用于言语了解和生成,从统计言语模型发展到神经言语模型

Q:你说的这些都是比较老的工作了,现在在做什么?

A:确实,那近几年的话,研讨人员提出了预练习言语模型PLM,经过对大规划语料库进行Transformer模型的预练习,展现了处理各种NLP使命的强壮才能。而且,由于研讨人员发现模型缩放能够导致模型容量的进步,他们进一步经过增加参数规划来探求缩放效应

Q:等会儿等会儿,听不懂了,解释解释什么叫模型缩放,模型容量?

A:

  • 模型缩放:增加模型的参数规划以进步其体现的进程。
  • 模型容量:模型能够学习的函数族的巨细,该函数族由模型的参数空间定义。增加模型的参数规划能够增加模型的容量,然后使其能够学习更杂乱的函数。

补充一点风趣的,当参数规划超过一定水平时,这些扩大的言语模型不仅能够完成明显的功能进步,还体现出一些特别的才能,比方上下文学习才能等等,这是小规划言语模型(例如BERT)所没有的,这种现象被称为呈现Emergence

Q:这么凶猛?那是不是越呈现就越好?

A:你都这么问了,显然心存疑虑,实际上,呈现现象也或许导致模型呈现一些意外的错误或成见,因而需求在模型规划和练习中加以留意和操控。

Q:那这么多参数的模型是不是应该给赋予一个新的姓名?

A:没错,为了区分不同参数规划的言语模型,研讨界为具有包括数十亿或数百亿参数的PLM创造了LLM这一术语,也便是大言语模型Large Language Model。

Q:那便是所谓的ChatGPT了!

A:是的,但LLM不只有ChatGPT,还有许多许多…

下图是近年来现有LLM时刻轴,别的,如果没有相应的论文,咱们将模型的发布日期设定为其揭露发布或公告的最早时刻。由于篇幅约束,咱们只包括揭露报告评价结果的LLM。

2023年LLM如何入门?请看这篇综述!丨论文解读

Q:这么多?我想更多的了解LLM,你能介绍一下吗?

A:当然能够,咱们今日读的这篇总述便是在介绍LLM的布景、要害发现和干流技能。

这篇总述从预练习、习惯调整、运用和才能评价四个方面对LLM的最新进展进行了文献总述,并总结了LLM的要害发现、技能和办法。咱们首要重视的便是LLM的这四个方面:

  • 预练习Pre-training
  • 习惯调整Adaptation
  • 运用Utilization
  • 才能评价Capacity Evaluation

二、LM的四个发展阶段

一般来说,LM的方针是建模单词序列的生成概率,以猜测未来的或缺失的token的概率。

LM的研讨在文献中遭到广泛重视,能够分为四个首要发展阶段:

1 统计言语模型SLM:

Statistical Language Model是一种根据统计办法的言语模型,它经过核算给定上下文条件下各个或许的下一个词呈现的概率,来对自然言语进行建模。

SLM一般运用N-gram模型来表明上下文,即假设下一个词的呈现只与前面N个词有关。

SLM在NLP和信息检索等范畴有着广泛的运用,但是其体现受限于数据量和特征挑选,首要的运用如统计机器翻译SMT和GMM+HMM模型。

2 神经网络言语模型NLM:

Neural Network Language Model是一种根据神经网络的言语模型,它经过将自然言语转化为向量表明,运用神经网络建模词汇之间的联系来猜测下一个词。

NLM一般运用RNN或许变种(如LSTM、GRU)来处理序列数据,并将上下文表明为隐藏状况。

NLM在NLP中体现较好,但是其练习时刻较长,且需求较大的数据集和核算资源。

3 预练习言语模型PLM:

Pre-trained Language Model是一种在大规划数据上进行预练习的言语模型,它经过无监督的办法学习自然言语的特征表明,然后为不同的使命供给通用的特征提取器。

PLM一般运用自编码器、Transformer等模型结构,在大规划数据上进行预练习,并经过微调FT等办法习惯不同的下流使命。

PLM的呈现极大地促进了NLP的发展,如BERT、GPT等模型便是PLM的代表。

4 大型言语模型LLM:

Large Language Model是一种具有很多参数的言语模型,它经过增加模型的容量和练习数据量来进步模型的体现。

LLM一般根据PLM进行规划,经过增加模型规划、调整模型结构、参加更多的使命等办法来增加模型的杂乱度和泛化才能。

LLM在NLP范畴体现出了惊人的功能,在PLM的根底上,增大模型参数,使得LLM呈现PLM不具有的呈现才能,同样采用预练习+微调的方法。


趋势与问题:

LM与LLM现已逐步成为热点话题,事实上,咱们经过近年来包括这两个要害词的Arxiv论文数量的变化趋势便可窥见一斑:

2023年LLM如何入门?请看这篇综述!丨论文解读

LLM的研制需求很多的数据处理分布式练习经验,这与传统的研讨和工程边界现已含糊。

现在,LLM关于人工智能范畴发生了巨大的影响,ChatGPT和GPT-4现已引发了关于AGI的从头思考。

不过,虽然LLM现已取得了很大的进展和影响,但其底层原理仍然没有得到很好的探求。其间一个很浅显而又重要的问题是,为什么LLM会呈现新的才能,而较小的PLM不会?

其次,研讨人员很难练习出有才能的LLM,由于需求很多的核算资源,而练习LLM的许多重要细节(如数据搜集和清洗)也没有被揭露。

再者,怎么使LLM契合人类价值观和偏好也是一个应战,由于它们或许会发生有害的内容。

三、LLM的要害技能

1 五项要害技能

LLM现已演变成现在的状况,成为通用和有才能的学习器,这得益于多项重要技能。

其间,缩放、练习、才能激发、对齐调整和东西操作是导致LLM成功的要害技能。

扼要解释一下:

  • 缩放:是指经过增加模型的规划和数据量来进步模型的容量。 这能够经过增加模型的层数、参数数目、模型结构的杂乱度等办法来完成。一起,为了支撑更大的数据量,需求运用高效的分布式练习算法来练习模型。缩放技能的优点是能够进步模型的体现和泛化才能,但也面临着练习时刻长、核算资源耗费大等问题。
  • 练习:由于LLM模型巨大,练习具有应战性。因而,需求运用高效的分布式练习算法来学习LLM的网络参数。 这些算法能够将练习使命分配给多个核算节点,并运用异步更新和梯度累积等技能来加快练习进程。此外,还需求考虑怎么处理模型的权重衰减、学习率调整等问题,以进步练习的功率和稳定性。
  • 才能激发:才能激发是指经过规划适当的使命阐明或特定的上下文学习策略,以激发LLM的潜在才能。 例如,能够规划模型在文本生成、问答、机器翻译等多个使命上进行练习,然后进步模型的泛化才能。一起,还能够经过规划愈加杂乱的使命和方针,来促进模型的进一步发展和学习。
  • 对齐调整:对齐调整是指将LLM与人类价值观保持共同的必要条件。在LLM中,需求考虑到模型的公平性、透明度、隐私保护等要素。对齐调整的进程中,需求进行模型的监督和审查,以确保模型的行为契合人类价值观。
  • 东西操作:触及运用外部东西来弥补LLM的缺陷。例如,能够运用注释、可视化东西等来协助剖析LLM的输出,发现问题并进行调整。一起,还需求开发愈加智能的自动化东西,以协助开发人员愈加高效地构建、部署和管理LLM模型。

2 GPT系列LLM技能演进

下图是GPT系列LLM技能演进简图。首要根据OpenAI的论文、博客文章和官方API制作了这个图。

需求指出的是,实线表明两个模型之间的演化途径存在明确的依据,虚线表明演化联系相对较弱。

2023年LLM如何入门?请看这篇综述!丨论文解读

四、LLM所需的资源

0 LLaMA

Large Language Model Analysis是一个用于评价大型言语模型的东西集,它由OpenAI开发并开源,旨在协助研讨人员和开发人员评价和了解大型言语模型的行为和功能,并发现其间或许存在的问题和成见。

LLaMA供给了一系列东西和方针,能够协助用户对大型言语模型进行各种剖析,包括模型的功能评价、模型的内部结构和行为剖析、模型的成见检测等。

LLaMA的首要功能:

  1. 功能评价:经过供给各种自然言语处理使命的基准数据集和评价方针,协助用户评价大型言语模型在不同使命上的体现和泛化才能。
  2. 内部结构和行为剖析:经过可视化东西和模型层级剖析,协助用户了解大型言语模型的内部结构和行为,以及模型在不同使命和数据集上的特色和变化。
  3. 成见检测:经过供给多种成见检测东西和方针,协助用户评价大型言语模型中或许存在的成见问题,例如性别、种族、地域等方面的成见。

下图是LLaMA研讨工作的演化图,由于数量巨大,无法将一切的LLaMA变体包括在这个图中。

2023年LLM如何入门?请看这篇综述!丨论文解读

1 揭露可用的模型检查点或API

练习大型言语模型需求很多的核算资源和时刻,因而,许多研讨人员和公司会揭露发布他们练习好的模型检查点或API,以供其他人运用。

这些模型一般采用预练习的办法进行练习,并具有较高的功能和泛化才能。OpenAI的GPT系列模型和Google的BERT模型等都是揭露可用的模型检查点。


2. 常用语料库

练习大型言语模型需求很多的文本数据,因而,常用语料库是练习大型言语模型所需的重要资源之一。

常用语料库包括Common Crawl、维基百科、新闻数据、网络文本等。这些语料库一般能够经过互联网揭露获取,而且现已被清洗和标记。


3. 图书馆资源

练习大型言语模型需求运用一些常用的深度学习结构和相关东西,例如PyTorch、TensorFlow等。

这些结构和东西供给了丰厚的API和函数库,能够协助研讨人员和开发人员愈加高效地构建、练习和评价大型言语模型,比方:

  • TensorFlow:Google开发的深度学习结构,支撑分布式练习和推理。它具有广泛的API和函数库,能够协助研讨人员和开发人员轻松构建、练习和部署大型言语模型。
  • MXNet:Amazon开发的深度学习结构,支撑分布式练习和推理,具有高效的核算功能和易于运用的API。
  • Horovod:Uber开发的分布式深度学习结构,支撑TensorFlow、PyTorch和MXNet等多种深度学习结构,供给高效的分布式练习和通讯。
  • etc.

此外,还需求一些数据处理、可视化和模型调试等东西来辅助练习和剖析。这些东西和资源一般能够经过互联网免费获取。

五、LLM的Pre-training

LLM的预练习是指在大规划语料库上进行的无监督学习进程,经过学习语料库的统计规律和言语结构,让模型取得根底的言语了解和生成技能。

预练习为LLM的才能奠定了根底,使得LLM在进行特定使命的微调时能够更快、更精确地收敛,而且能够具有更好的泛化才能。

但咱们需求留意的是,在预练习进程中,语料库的规划和质量关于LLM取得强壮的才能至关重要。一般来说,有如下规律:

  • 大语料库能够供给愈加丰厚、多样化的言语信息,协助LLM更好地了解言语的杂乱性和多样性。
  • 高质量的语料库也很重要,低质量的语料库或许会引进噪声和错误,对LLM的功能发生负面影响。

1 数据搜集

1.1 数据来历

为了开发具有强壮才能的LLM,需求搜集很多自然言语的语料库。

LLM的预练习语料库的数据来历能够分为通用数据专业数据两种类型。

  • 通用数据:包括网页、书籍和对话文本等大规划、多样化、易于获取的数据集,这些数据能够增强LLM的言语建模和泛化才能。通用数据集被广泛运用于LLM的预练习中,能够进步LLM在大多数自然言语处理使命中的功能。
  • 专业数据:包括多言语数据、科学数据和代码等针对特定范畴的数据集,能够赋予LLM特定使命处理才能。

此外,搜集数据集的多样性也很重要,由于不同类型、来历和范畴的数据集能够为LLM供给愈加丰厚和全面的言语信息和常识。

下图是各种数据源在现有LLM预练习数据中的份额:

2023年LLM如何入门?请看这篇综述!丨论文解读

1.2 数据清洗

在搜集很多文本数据之后,对数据进行预处理以构建预练习语料库非常重要,尤其是需求去除噪声、冗余、无关和或许有害的数据,这些要素或许会严重影响LLM的容量和功能。

典型的数据清洗流程如下:

2023年LLM如何入门?请看这篇综述!丨论文解读


2 模型架构

下图是三种干流架构中留意力方法的比较。

2023年LLM如何入门?请看这篇综述!丨论文解读

其间,蓝色、绿色、黄色和灰色的圆角矩形分别表明前缀符号之间的留意力、前缀与方针符号之间的留意力、方针符号之间的留意力和被掩盖的留意力。

咱们来解释一下这几个留意力有什么区别:

  1. 前缀符号之间的留意力:这种留意力机制用于编码器中,用于对输入序列中的前缀符号,例如[CLS]符号进行建模,以供给序列等级的表明。这种留意力机制的意图是捕捉输入序列的整体信息,以便更好地进行下流使命的猜测。
  2. 前缀与方针符号之间的留意力:这种留意力机制用于解码器中,用于将前缀符号与方针符号之间的信息进行交互,以便更好地对方针序列进行建模。这种留意力机制的意图是在解码器中引进输入序列的信息,协助解码器更好地生成方针序列。
  3. 方针符号之间的留意力:这种留意力机制用于解码器中,用于对方针序列中的符号进行建模,以便更好地进行下流使命的猜测。这种留意力机制的意图是捕捉方针序列中的部分信息,以便更好地生成下一个符号。
  4. 被掩盖的留意力:这种留意力机制用于在解码器中处理掩码符号,例如[PAD]符号,以便更好地对生成方针序列的进程进行操控。这种留意力机制的意图是防止模型在生成方针序列时过于依赖掩码符号。

3 模型练习

3.1 优化设置

  • Batch Training:指在练习神经网络时,将数据分红小批次(batch),每次只用一个小批次的数据进行模型参数的更新操作,而不是对整个数据集进行一次性的练习。这能够使练习进程愈加高效,削减内存占用,一起也能够防止过拟合。
  • Learning Rate:是神经网络优化算法中的一个重要超参数,它操控着每次模型参数更新的步长巨细。较小的学习率能够使模型学习愈加稳定,但或许会导致练习进程过慢;而较大的学习率能够加快练习进程,但或许会导致模型不稳定,甚至无法收敛。
  • Optimizer:是神经网络优化算法中的一种,它的作用是根据丢失函数对模型的参数进行更新,以使丢失函数最小化。常见的优化算法包括梯度下降、Adam、RMSprop等。
  • Stabilizing the Training:指经过一些技巧,使得神经网络练习进程愈加稳定,能够更快地收敛到最优解。常见的技巧包括增加正则化项、运用批归一化、运用残差衔接等。

3.2 可扩展的练习技能

  • 3D Parallelism:是一种并行核算技能,它能够将神经网络模型的核算分配到多个GPU或多台机器上,以加快模型的练习。与传统的数据并行技能不同,3D Parallelism能够一起运用数据并行和模型并行的优势。
  • ZeRO:一种优化技能,它能够将神经网络模型的参数分红多个分组,并分配到不同的GPU上进行核算,以削减GPU之间的通讯量,然后加快模型的练习。
  • Mixed Precision Training:它能够将模型参数的存储精度降低到半精度或混合精度,以削减内存占用和核算量,一起加快练习进程。在模型练习进程中,一起运用高精度和低精度的参数进行核算。
  • Overall Training Suggestion:指一些通用的练习技巧,能够协助进步神经网络模型的练习作用。比方能够运用数据增强来扩大数据集,运用早停法来防止过拟合,运用交叉验证来评价模型功能等。

六、LLM的Adaptation

1 实例格局化:

首先咱们要知道,实例格局化是什么?

实例格局化是指将数据实例(如文本、图像、音频等)处理成一种特定的格局,以便它们能够被用于机器学习算法的输入。

下图是实例格局化的阐明和用于结构指令格局实例的常见的三种不同办法:

2023年LLM如何入门?请看这篇综述!丨论文解读

  • 格局化使命数据集:这意味着将使命数据集中的数据整理成一种特定的格局,以便它们能够被用于练习机器学习模型。一般,格局化数据集的进程包括对数据进行清洗、标记、向量化等处理,以使其适合于机器学习算法的输入。例如,在文本分类使命中,能够将文本转换成词袋模型或词向量表明,并将其与相应的标签一起存储在数据集中。
  • 格局化每日谈天数据:这意味着将每日谈天数据整理成一种易于剖析的格局。例如,在交际媒体或在线论坛上搜集的谈天数据需求进行预处理和清洗,以去除噪声和非重要信息。接下来,能够将谈天数据转换成一种结构化的格局,例如CSV或JSON文件,以便进行数据剖析和可视化。
  • 格局化综合数据:这意味着将多种数据源中的数据整理成一种共同的格局。综合数据能够来自不同的数据源,如数据库、文件、传感器等。在将这些数据整合在一起之前,需求将它们格局化成相同的格局,以便它们能够被合并和剖析。例如,在一个电子商务网站中,或许需求将订单数据、用户数据和产品数据整合在一起,以便剖析出售趋势和用户行为。在这种状况下,需求将这些数据格局化为相同的结构,例如JSON或XML格局。

2 调参Tuning:

调参是LLM练习进程中的一个重要环节,意图是找到最优的超参数组合,以进步模型在测验集上的功能

那么,有几种常见的Tuning办法呢?

2.1 Instruction Tuning

Instruction Tuning是经过增加一些人工规则或指令来对模型进行微调,以使其更好地习惯特定的使命或运用场景。

Example:在文本生成使命中,能够增加一些指令来操控生成的文本的长度、内容和风格。

2.2 Alignment Tuning

Alignment Tuning是经过对齐源言语和方针言语的数据来对模型进行微调,以进步翻译或文本生成的质量。

Example:在机器翻译使命中,能够经过对齐源言语和方针言语的语句来练习模型,以进步翻译的精确性。

2.3 RLHF(reinforcement learning from human feedback)三阶段

RLHF是运用强化学习算法来对模型进行微调,以使其更好地习惯特定的使命或运用场景。

该技能一般分为三个阶段:数据预处理、基准模型练习和强化学习微调。在微调阶段,模型会经过与人类交互来学习怎么生成更契合人类预期的文本。

下图是RLHF算法的工作流程:

2023年LLM如何入门?请看这篇综述!丨论文解读

2.4 Adapter Tuning

Adapter Tuning是在预练习模型中增加适配器层,以习惯特定的使命或运用场景。适配器层能够在不改变预练习模型权重的状况下,对特定使命进行微调。这种技能能够进步模型的功率和泛化才能,一起削减对核算资源的需求。

2.5 Prefix Tuning

Prefix Tuning是经过在输入中增加一些前缀来对模型进行微调,以使其更好地习惯特定的使命或运用场景。前缀能够供给一些额外的信息。

Example:使命类型、范畴常识等,以协助模型更精确地生成文本。

2.6 Prompt Tuning

Prompt Tuning是经过规划适宜的Prompt来对模型进行微调,以使其更好地习惯特定的使命或运用场景。提示是一些要害词或短语,能够协助模型了解使命的要求和希望输出的格局。

2.7 Low-Rank Adaptation(LoRA)

LoRA是经过将预练习模型分解成低秩矩阵来进行微调,以进步模型的功率和泛化才能。该技能能够削减预练习模型的参数数量,一起保存模型的表明才能,然后进步模型的习惯性和泛化才能。

下图是2.4 2.5 2.6 2.7四种调参办法的比照示意图:

2023年LLM如何入门?请看这篇综述!丨论文解读

七、LLM的Utilization

Utilization是在预练习或自习惯调优之后进行的,一种典型的提示办法是上下文学习,它以自然言语文本的方法制定使命描绘或演示。

此外,思想链提示能够经过在提示中参加一系列中心推理过程来增强上下文学习。关于杂乱使命的求解,提出了规划,首先将杂乱使命分解为更小的子使命,然后生成一个行动计划来逐一处理这些子使命。

LLM大致可分为Pre-train阶段、Tuning阶段,运用Prompt阶段。

  • Pre-train让预练习模型取得根本的言语才能。
  • Tuning阶段对模型调优增强其言语才能、使模型输出契合正确的价值观。
  • Prompt办法,比方ICT和CoT,能够进步模型的推理才能。

接下来,咱们将扼要介绍这三种Prompt技能,长话短说:

1 In-Context Learning语境学习

语境学习旨在经过模型本身的学习进程来改进其在特定上下文中的体现。经过对模型进行反馈和调整,能够使模型逐步习惯不同的语境和场景,然后进步其在各种使命中的功能和泛化才能。


2 Chain-of-Thought Prompting思想链提示

思想链提示经过提示来引导模型生成连接的、具有逻辑联系的文本。

该技能根据思想链的概念,即人们在思考时一般会依照一定的逻辑顺序组织思想和言语。经过在生成文本时引导模型依照特定的思想链顺序组织文本,能够使生成的文本愈加连接和合理。

下图是情境学习ICL和思想链CoT提示的比照阐明。ICL用自然言语描绘、几个演示和一个测验查询提示LLM,而CoT提示触及提示中的一系列中心推理过程:

2023年LLM如何入门?请看这篇综述!丨论文解读


3 Planning for Complex Task Solving处理杂乱使命的计划

其实便是分治,经过将使命分解为多个子使命,并为每个子使命制定计划来处理杂乱使命的技能。

该技能能够协助模型更好地了解使命的结构和要求,然后更有效地处理杂乱使命。此外,该技能还能够经过对使命和子使命之间的依赖联系进行建模,来进步模型的泛化才能和鲁棒性。

By the way,LLM的呈现实际上也体现在这几个方面。

下图是LLM处理杂乱使命的根据提示的规划公式示意图:

2023年LLM如何入门?请看这篇综述!丨论文解读

八、LLM的Capacity Evaluation

1 根底才能评价

1.1 文本生成

  • Language Modeling言语建模:

    这是评价LLM根底才能的一种常用办法,即根据前n个token猜测第n+1个token。常用的评价方针包括精确率、困惑度等。咱们就困惑度PPL做一个更详细的阐明:Perplexity困惑度一般来说是用来评价言语模型好坏的方针。言语模型是衡量语句好坏的模型,本质上是核算语句的概率。

    为什么PPL运用的是几何平均数呢?是由于,当数据终究结果是一个和时,用算术平均数更适宜,当数据终究结果是一个积时,用几何平均数愈加适宜。

    除此之外,机器翻译经常运用的BLEU方针也是运用了几何平均数。

  • Conditional Text Generation条件文本生成:

    包括机器翻译、文本摘要等使命,评价方针常用的有BLEU、ROUGE等。

  • Code Synthesis代码生成:

    评价方针首要是与人类生成的代码进行比较。

1.2 常识运用

  • 开卷问答和闭卷问答:评价模型关于常识的了解和运用才能。
  • 常识补全:评价模型关于常识图谱等常识库中缺失的信息进行推断的才能。
  • 杂乱推理:包括根据常识推理、符号推理和数学推理等,用于评价模型的推理才能。

首要应战:错觉和缺少最新的常识。其间错觉分为内涵错觉(与现有的来历抵触)和外在错觉(无法被可用的来历验证)。

1.3 杂乱推理

  • 根据常识推理:经过运用事先获取的常识来推导出新的结论。
  • 符号推理:经过对符号或逻辑表达式进行操作,推导出新的逻辑结论。
  • 数学推理:经过数学公式、定理和证明等办法,推导出新的数学结论。

2 杂乱才能评价

  • Human Alignment(人类价值观共同性):

    评价模型是否与人类活跃的价值观保持共同,例如尊重个人隐私、防止歧视等。

  • Interaction with External Environment(与外部环境交互):

    评价模型在具身智能(embodied AI)使命中的才能,例如机器人导航、语音助手等。

  • Tool Manipulation(运用外部东西):

    评价模型运用外部东西(例如浏览器、核算器等)的才能,例如webGPT运用浏览器作为东西,ChatGPT的核算器插件等。

九、提示规划

留意,此处与原文有收支,咱们挑选了一些原文中说到的细节,但也增加了一些新的内容。

Prompt Creation: 要害成分,规划准则,有用技巧。

1 Key Ingredients要害成分:

  1. Task-specific information: 提示需求包括与使命相关的信息,例如问题描绘,输入格局和输出格局等。
  2. Contextual information: 上下文信息能够协助LLM更好地了解使命,例如范畴常识,布景信息和先前的对话历史等。
  3. Examples: 供给示例能够协助LLM更好地了解使命和希望输出,例如输入/输出示例,解释示例和错误示例等。
  4. Constraints: 束缚能够协助LLM生成契合要求的输出,例如长度束缚,格局束缚和约束词汇等。

2 Design Principles规划准则:

  1. Clarity and simplicity: 提示应该清晰简练,易于了解。
  2. Relevance and specificity: 提示应该与使命相关,详细而不是含糊的。
  3. Diversity and adaptability: 提示应该具有一定的多样性和习惯性,以习惯不同的使命和状况。
  4. Consistency and coherence: 提示应该与使命的方针和希望输出保持共同,一起保持逻辑上的连接性和流畅性。

3 Useful Tips有用技巧:

  1. Start with a clear goal: 在规划提示之前,需求明确使命的方针和希望输出。
  2. Use natural language: 尽或许运用自然言语来描绘问题和希望输出,以协助LLM更好地了解使命。
  3. Provide examples: 供给示例能够协助LLM更好地了解使命和希望输出。
  4. Test and iterate: 在规划提示之后,需求进行测验和迭代,以不断改进提示的质量和作用。

十、结论与展望

咱们回顾了LLM的最新进展,并介绍了了解和运用LLM的要害概念、发现和技能。

咱们重点重视大型模型(即巨细超过10B的模型),一起扫除早期预练习言语模型(例如BERT和GPT2)的内容,特别是,咱们的查询评论了LLM的四个重要方面,即预练习、习惯调整、运用和评价。关于每个方面,咱们突出了对LLM成功至关重要的技能或发现。

此外,咱们还总结了开发LLM的可用资源,并评论了复现LLM的重要施行指南。

接下来,咱们总结了本次查询的评论,并介绍了LLM在以下方面的应战和未来方向:

  1. 进步功率和精确性:LLM需求更高的功率和精确性,以习惯越来越多的使命和运用场景。
  2. 改进预练习模型:需求进一步改进预练习模型的结构和技能,以进步LLM的功能和功率。
  3. 处理过拟合问题:需求处理LLM在特定使命上的过拟合问题,以进步模型的泛化才能。
  4. 多模态LLM:需求扩展LLM的才能,使其能够处理多种不同的输入类型,例如图像、语音和视频。
  5. 研讨LLM的可解释性:需求进一步研讨LLM的内部机制和决议计划进程,以进步其可解释性和可信度。

FIN