0. 导读

GPT 近期密布爆发,作为一般人,咱们能够不了解技能的细节,但不能不知道他的前世今生,以及更重要的要学会如何使用这个工具。
G-Generative, P-Pretrained, T-Transformer
G 是通用的,P 是预练习,T 是一种结构,有用规避了 RNN 的传递缺陷和低效问题,能够处理句中的一切词。

1. 历史

  • 2019.02 GPT-2 呈现
  • 2020.06 GPT-3 呈现
  • 2020.09 GPT-3 + PET(pattern exploiting training) 人工离散模板呈现
  • 2022.01 GPT-3 + Chain of thought 推理才能呈现,zero-shot 爆破,呈现“彻悟”现象

普通人的 GPT 白皮书——你必须知道的智能革命

作者语:
GPT 的代际迭代不是一般版别的更新,现在看才能上往往是天翻地覆的变化;
GPT 的迭代呈现了越来越快的趋势,关注越来越多,应用越来越广泛,很或许成为智能年代的 OS,随着 OpenAI 的 API 敞开,应用如雨后春笋般呈现,未来很或许会呈现 GPT-based 谷歌、微信、淘宝、抖音们。

2. “彻悟”

英文是 Emergence,是当下 GPT 领域最前沿相对热点的研讨课题。 彻悟是指,当模型参数逾越千亿,呈现的小样本学习 few-shot、复杂推理 complex reasoning、泛化 AGI 和思维链推理才能 chain of thought

作者语: GPT 在许多场景的体现越来越挨近甚至逾越人类对应领域的专家才能。
这样的变化是在参数和数据量到达必定规划后忽然呈现的,由于 GPT 的“黑盒”不行预测性,这种呈现的才能成为了当下诸多前沿科学家研讨的焦点。
一方面希望这样的呈现才能能够协助咱们处理许多预期之外的问题,另一方面希望能够了解呈现的特点,尤其是边界,为安全防范做好衬托。

3. 范式搬运

  • 1986-2006,第一范式,非神经网络完全监督学习,例如支持向量机、决策树模型等,特征工程Feature Engineering 主导
  • 2006-2017,第二范式,神经网络完全监督学习,例如 Word2Vec、Long short-term memory等深度学习模型,结构工程 Architecture Engineering 主导
  • 2017-2019,第三范式,预练习模型+精调,例如 BERT+finetuning、CNN等模型,目标工程 Object Engineering 主导
  • 2019-至今,第四范式,预练习模型+Prompt/in-context/instruction,例如 BERT+prompt 等模型,模板工程 Prompt Engineering 主导

普通人的 GPT 白皮书——你必须知道的智能革命

作者语: 范式的搬运向着越来越习惯人的特性来转变,从非神经网络转到模仿生物神经处理信息的方法,从规划模板到习惯人类自然语言的输入。

4. Prompt

是在 pretrained language model PLM 的基础上对原始输入进行改造,规划一种特殊的输入形式/模板,这种模板能够协助 PLM 回忆起预练习阶段学习到的常识,这种模板称为 Prompt

  • 输入 x = “I love this movie.”
  • Prompt 模板 “[X] Overall, it was a [Z] movie”
  • 输出 x’ = “I love this movie. Overall, it was a [Z] movie”
  • 接着 PLM 完成对 [Z] 的填空,或许结果是 fantastic/great
  • 最终将答案转为情感分类的标签
  • 这样能够通过 Prompt 必定程度上操控 PLM 的输出

5. In-Context Learning

ICL 是 Large Language Models LLM 的参数和练习数据量到达必定规划时,呈现出来的一种才能,经验上参数要到达百亿,参数数据量到达百亿~千亿规划。

预练习模型无需 finetune,下流任务供给 few-shot examples 即能够根据上下文学习做预测。

差异于 pretrain + finetune,ICL 是将 few-shot 拼接到 query 前联合预测,无需对模型参数做梯度更新。给上下文示例无论对错都有助于功能提高,但假如给不相关的上下文功能会下降。

  • 输入 “今天天气真好”,输出 “正面”
  • 输入 “今天命运真差”,输出 “负面”
  • 输入 “我很高兴”,输出 “XXX”

6. Instruction Tuning

用自然语言下达指令,不需要 prompt 或许 ICL 特定的结构。
LLM 理解自然语言的技能:T0/FLAN

作者语: 一般人在与 GPT 协作时,有下面 3 种方法能够有用提高功能:

  1. 推理:在许多语境下,构建有推理过程的解答能够提高功能;
  2. 示例:<一般文案,风格化构思文案> 用前面这样的格局来生成更优的构思文案;
  3. 多模态:在 GPT4 中能够尝试供给文本、图片、语音、视频等多模态信息来提高功能。

Reference

  1. Pretrain, Prompt, Predict
  2. Prompt-based Learning Paradigm in NLP – Part 1