来历｜TalkRL

OneFlow编译

翻译｜杨婷、徐佳渝、贾川

除了OpenAI，外界或许很少有人知道ChatGPT模型成功的实在原因，实践上，OpenAI也会对ChatGPT具有的巨大影响力感到难以想象。这种困惑和惊喜就像工程师们解bug时取得的意外成功：We don’t know why, but it works.

一种遍及的观念是，ChatGPT没有任何革命性技能，正如Meta 首席AI科学家Yann LeCun所说，“仅仅一些奇妙的技能组合罢了”。当然，听到这话的围观群众不免戏弄LeCun这种同行评议是“吃不到葡萄说葡萄酸”，不过，从ChatGPT的缔造者们后续的表态来看，恐怕也不会否认他的“酸话”

早在2022年1月，OpenAI发布了另一款GPT-3.5微调版别InstructGPT，这是ChatGPT的“兄弟模型”，假如用标准基准来点评它们的原始技能才干，两个模型之间并没有实质性不同。依据OpenAI科学家们的说法，ChatGPT用的微调办法稍有不同，并且添加了一些对话数据，这让ChatGPT更易上手和易用，由此产生了很大的正面影响

新增的对话数据固然重要，不过，让ChatGPT更简略推断出用户的意图，产生质变的根本原因是已在InstructGPT运用的“人类反应的强化学习（RLHF）”技能，OpenAI联合创始人、研讨科学家John Schulman以为，RLHF才是ChatGPT的秘密武器（secret sauce）。

简略来说，强化学习是让研讨者像练习狗相同练习AI智能体，并为其做出的正确响应供给奖赏，而RLHF的根本思路是，教会大型言语模型学习人类用户实在喜爱的答复偏好来进一步调整模型的响应。

RLHF技能背面的其间一个作者正是John Schulman，许多人不知道的是，他也是ChatGPT项意图首要负责人。

作为强化学习大牛，John在这一范畴作出过许多重大贡献，例如发明晰TRPO算法（信赖域战略优化，Trust Region Policy Optimization）、GAE（广义优势估量，Generalized Advantage Estimation）以及TRPO的后代近端战略优化（Proximal Policy Optimization），也称PPO算法。值得一提的是，其博士导师是强化学习范畴的开拓者Pieter Abbeel，并且也在OpenAI创建初期作业过一段时刻。

在ChatGPT发布前一个月，John Schulman在Robin Ranjit Singh Chauhan掌管的TalkRL播客节目中，具体介绍了RLHF主意的产生源头，InstructGPT以WebGPT的首要思维，并阐述了AI对齐以及对AGI完结的观念。从中，咱们也能够看到ChatGPT技能演进的脉络和不曾在论文中被描述的细节，以及OpenAI团队的下一步研讨方向。

（以下内容经授权后由OneFlow编译发布，译文转载请联系OneFlow取得授权。来历：www.talkrl.com/episodes/jo…

1 为什么要重视RLHF

Robin Chauhan：作为深度强化学习的早期开拓者之一，你为什么去重视“人类反应的强化学习（RLHF）”？

John Schulman： GPT-3练习完结后，它的智能程度让我十分吃惊。我意识到AI范畴的下一个前沿在于实在发挥言语模型的作用。我依然对RL十分感兴趣，但处理RL基准测验并不是咱们的终究意图。

要运用RL算法，有必要经过奖赏函数，可是奖赏函数从何而来？在RL基准测验中，咱们能够自己编写奖赏函数，但这种办法有必要要在模仿环境（simulator environment）中才行得通。所以在实践国际用例中，咱们有必要要人工监督AI的行为，以分辨好坏。所以怎么定义奖赏是一件极具挑战性且至关重要的问题，尤其是在使命点评难度逐渐加深的状况下。

另一方面，尽管现在言语模型十分聪明，但却难以将它们用在有价值的作业上。由于它们不会依照咱们的意愿去作业，仅仅在单纯地仿照练习语料库，但这也说明只需给言语模型一个正确的方针，它们就很有或许改进上述问题，也便是说，咱们能够在言语模型中应用强化学习，运用人类反应去定义奖赏。

Robin Chauhan：比较合成奖赏（synthetic reward），人工反应是否更难，或许说这两者之间在必定程度上大有不同？

John Schulman： 运用人工反应会遇到许多新问题。现在，咱们有必要要动态搜集数据集，所以要花许多时刻去树立人类偏好的数据集，比较各种算法细节，数据集的质量愈加重要。别的咱们还要考虑怎么将使命分配给人工练习师等问题，假如有程序化的奖赏函数，这些问题咱们本不用考虑。

Robin Chauhan：人工评分员之间的差异或奖赏信号的噪音是否会形成问题？

John Schulman： 实践上，噪音并不是我最忧虑的问题，比较而言，我更忧虑人们的惯有偏见。例如，在问题答复或模型编写文本等设置中，人们一般更偏向于较长的答案，这会导致模型给出的答案日渐冗长。所以咱们要留意辅导人工评分员，让他们奖赏简练的答案，假如对这一问题不加留意，或许会激励模型的过错行为。

2 用RLHF完结指令跟从模型InstructGPT

Robin Chauhan：2022年3月，你与Long Ouyang、Jeff Wu等人宣布了论文《Training language models to follow instructions with human feedback》，你能扼要介绍下InstructGPT的首要思维吗？

John Schulman： InstructGPT是一种经过微调以遵从指令的言语模型。OpenAI的官网上有一个大文本框，在文本框中输入内容后点击提交就能够完结一个指令。言语模型十分有用，只需输入提示词就能够使其来完结自己想做的作业。

比方你能够先在文本框中输入问答示例，然后你提出别的一个问题，InstructGPT就能够相同的办法予以答复，人们能够让言语模型经过提示来做一些很棒的作业。但“提示”自身也是一门艺术，很难做到精确无误，模型也不用定能完美辨认提示的内在。假如你仅仅选用原始模型与之对话，那么你得到的答案或许就有点不尽如人意了。

经过InstructGPT，咱们发现要对言语模型进行一些小的改动，就能够使它们更简略运用。具体来说，咱们要对它们进行练习，以便当你的一段文本包括指令时，模型能够极力依照指令进行操作。几乎任何东西都能够作为指令。例如，指令能够是持续聊天，对这段文本进行总结，或许是供给一份出售某个小部件公司的名单。

这便是指令跟从模型（instruction following model），能够履行任何你给定的指令。不过我并不是这项作业的核心贡献者，我首要参加了强化学习基础设施和完结强化学习的练习细节。

在这个项目中咱们所做的便是：在指令跟从设置中运转了RLHF中的整套办法论。所以咱们进行了有监督微调（supervised fine tuning），搜集偏好数据，练习了一个奖赏模型（reward model），然后依据该奖赏模型进行了强化学习。

在练习之初，咱们运用的数据是由外包商搜集的。但后来咱们有了API和官网上的Playground（一个大文本框，能够在其间运用模型），咱们就运用在Playground中搜集到的指令来进行练习（用户在运用之时就会收到提示：你的指令或许会用于练习）。这样既能够搜集偏好数据，又能够进行强化学习。一起需求留意：练习时不能存储prompt中的任何信息。咱们有一套适当杂乱的流程来保证没有私人信息泄露到模型中。

成果表明，这种办法十分有用。原始的言语模型一般很难依照指令履行。可是，经过强化学习练习后的指令跟从模型要好得多。 假如仅从改进程度来看，那么几乎能比美比这大100倍的模型。这是适当大的一个前进。

Robin Chauhan：看来你想要得到可信赖的模型，这是你的标准之一吗？

John Schulman： 关于一个大型言语模型来说，实在性是重要标准之一。可是，这个模型是怎么经过示例学习实在性的？难道实在性在模型内部被表明了吗？由于模型没有外部参阅来承认某些东西是实在的仍是虚伪的，那么它怎么知道什么是实在的？

某种程度上，模型内部是有实在性表明的。 咱们能够将言语模型看作是对整个互联网的仿照，而互联网是由许多不同的人编写的，包括各种类型的内容，从小提到非小说，到技能文献、笑话以及论坛帖子等。因而，该模型实践上是由一切这些编写内容的人组成的“独奏团”。

当咱们输入一个prompt时，模型在内部有必要要做的便是确认prompt是由谁编写的，并企图以该风格持续生成文本。 比方，假如它以为正在阅览的内容是华尔街交易论坛上的东西，那么就持续以这种风格生成文本。可是假如它以为正在阅览纽约时报的内容，它又会以不同的办法写作。

因而，模型有必要在某个当地进行核算，例如核算当前的风格是什么，或许正在仿照哪种较为小众的风格集合。至少，在进行监督微调或彻底依据人类反应的练习时，咱们能够缩小模型生成的文本风格范围，测验仿照练习集中最好的人或最好的风格。

当然，“最好”会有很大的差异，终究得到的内容将取决于咱们的指令。假如咱们要求模型生成内容时不要太过于有争议，又要“企业化（corporate）”一点，那么生成的内容也便是这样。因而，咱们至少能够将模型限定到一个特定的风格，而不是互联网上一切的风格。

但我以为，这里面或许还有更多的内容。模型不仅仅是在学习文本风格，模型内部或许还在企图确认一些句子是否正确。 当然，我上面所说的是关于原始预练习模型。我以为“猜测下一个token”的方针会为咱们供给许多信息，这将迫使模型确认句子是否正确。

关于强化学习微调而言，我以为还会赋予模型更多的潜力去生成可信赖的东西，而不是仅仅仿照某种风格，但现在还很难确认模型是否在这样做。现在仍是prompt在引导着模型去获取互联网上那些咱们想要的东西，仿照咱们想仿照的内容。而咱们想使InstructGPT更多地重视互联网上那些更可信赖的东西。

3 言语模型的泛化才干

Robin Chauhan：无论怎么，咱们应该仿照出互联网上最实在的一面。你能否谈一下泛化，以及这种模型在散布外（out of distribution）的体现怎么？

John Schulman： 总的来说，言语模型全体上具有惊人的泛化才干。 我以为，像这些在互联网上受过多元化数据练习的预练习模型，它们一般泛化得适当好。至少关于那些在机器学习早期就触摸过这些技能的人来说，这很令人惊讶。例如，即使是用其他言语，甚至是一种相对稀有的言语供给指令，模型一般也能够很好地遵从，即使整个练习进程中没有任何数据是用该言语编写的指令。这便是从预练习中延续下来的才干。

这实践是一个关于奖赏模型的问题，举个例子：假如问题有点不同于它所接受的练习，比方在奖赏模型的练习数据中略微偏离一点，那么会产生什么呢？

我以为，RLHF的一个棘手问题是：对奖赏模型进行练习时，也便是在练习policy以取得高奖赏，意味着这会运用奖赏模型中的过错。 它终究会找到针对奖赏模型的对抗示例，但这比正常的散布外行为（out of distribution behavior）更糟糕。因而，在将奖赏模型尽或许地泛化到练习集之外的确存在一些挑战。

当这些类型的Agent遇到某些难题时会提醒它不知道吗？我以为，假如你问一个模型常识核心的问题，它会知道答案，并且它也知道自己知道答案（这里指的是Instruct类的模型）。但假如你问它关于其常识边际的问题，那或许答复起来会有困难，必然会呈现不精确的状况。有几篇论文还评论过这个问题，比方Anthropic宣布的Language Models, mostly know what they know，OpenAI宣布的Teaching Models to Express Their Uncertainty in Words。这些言语模型以及机器学习中许多其他模型都是为了最大化或许性而进行练习的。

鉴于已经练习过Agent一直猜测输出的散布（distribution of outputs），因而，关于言语模型，只需给定前缀，它就会猜测下一个token的散布，并且一般猜测的适当精确。假如它在猜测某项使命有80%的概率，并且每次都是80%，那么它的正确率就为80%。

这仅仅练习方针的成果。练习方针鼓舞对模型进行校准，这是由于模型校准能够进步不确认性估量的精确性。

因而，关于单个token等级，模型必定经过校准。问题是，模型校准是否精确？校准后的模型是否能应用于多个token输出的情境中？又或是它们是否能够判别多个token句子的正确性？

由于模型经过单个token等级进行校准，所以我以为它们在不同环境中需求校准的信息的确不同。这便是我以为模型不难精确表达出校准信息的原因，或许至少让模型像人相同很好地表达不确认信息，这个问题也并非无法处理，但在实践中，需求处理一些实践的困难。

4 AI对齐作业进入第二阶段

Robin Chauhan：人们关于“AI对齐（ AI alignment）”有不同的理解办法，你怎么看待RLHF方面的对齐作业？

John Schulman： 在我看来，AI对齐的首要方针是让模型经过练习知道人类的意图，并在履行使命时做出契合人类期望的行为。 因而，咱们需求分辨模型的才干。例如，当咱们给一个原始言语模型提出一个问题时，它或许并不知道咱们期望它给出一个完美的答案。相反，它或许会假设咱们仅仅期望得到一个契合语法和语义规矩的答复。

Robin Chauhan：OpenAI的一篇博客评论了对齐序列（sequence in alignment），一共包括三个阶段：第一阶段是运用人类反应练习AI体系，第二阶段是练习AI体系帮忙人类反应，第三阶段是练习AI体系进行对齐研讨。所以你现在的作业首要是运用人类反应练习AI体系，那何时以及怎么才干进入其他阶段？

John Schulman： 我现在正在做第二阶段的作业，即练习AI体系以帮忙人类反应。当咱们开端测验让体系处理更具挑战性的问题时，第二阶段的作业就变得越来越重要。当模型的性能远低于人类水平或在某些使命上到达人类水平时，监督它们十分简略。可是，当模型处理的使命十分困难，需求许多不同的技能常识时，就很难供给有用的监督信号。

为了处理这个问题，咱们能够采纳一些措施，比方运用两个模型：针对某个问题，一个模型给出相应的答案，然后另一个模型对该答案提出批判定见，指出不足之处。这样，人们在看完批判定见后，就只需求判别答案是否正确，批判有助于人类更精确地点评答案。这一主意十分重要，我和搭档们正在探究。此外，OpenAI也正在做一些作业来帮忙对齐研讨，不过完结这项作业任重而道远。

Robin Chauhan：Stuart Russell是OpenAI博士委员会的成员之一，我十分喜爱他的《人类兼容性（Human Compatible）》一书。他指出，标准强化学习框架一般是依据固定奖赏信号的，而这种框架存在必定的问题。针对该问题，咱们需求培养强壮的Agent，使其测验做咱们想做的作业，一起对咱们的意图坚持一种置疑情绪，由于确认的Agent会存在必定问题。你怎么看待这一观念？

John Schulman： 我彻底附和Stuart Russell的观念。首要，编写一个简略的奖赏函数来捕捉咱们的意图是十分困难的。咱们期望Agent能够理解咱们的意图，并以最好的办法来完结这些意图，而不是盲目地追求某些极点的成果。

在构建Agent时，咱们应该保证它们坚持一种置疑情绪，以便更好地理解咱们的意图和方针。 这也能够协助Agent愈加慎重地采纳行动，以保证它们在完结方针的一起也考虑到其他重要的因素。

Stuart Russell提出了一个很好的问题定义，即让AI与人类一起玩一个游戏，该游戏的方针是让AI测验理解人类的意图，并采纳行动测验满足这一意图，一起坚持必定的置疑情绪。

我以为，假如咱们开端思考怎么将Russell所描述的方针应用到实践中，就会发实践际上这与OpenAI以及其他安排正在进行的RLHF研讨十分相似。咱们正在努力完结这一方针。

5 WebGPT的主意从何而来

Robin Chauhan：2021年，你和Nakano等人一起宣布论文《WebGPT：依据人类反应的阅读器辅助问答》，能解释下WebGPT首要想处理的问题吗？

John Schulman： 在WebGPT中，咱们将言语模型与网络阅读器相连，以便从网络中检索信息。这些言语模型能够经过总结网络上的相关信息来写答案，这样一来，假如你对时势热点提问，或许询问一些需求具体科学或技能常识的问题，AI就能够在网络上查找答案，并具体引证其来历。

在文中，咱们首要探讨了两个问题。首要，咱们曾企图将言语模型变成一种Agent，人们在网络上编写了许多不同类型的文本数据，但关于怎么实践履行多进程进程的数据却很少，因而，咱们不确认言语模型是否能够实践履行某些迭代进程，咱们有许多数据，但这些数据根本上都和写论文、聊天等相关，这是咱们在论文中探讨的第一个问题。

关于这个问题，我以为答案是必定的。在这种状况下，咱们能够让Agent运用咱们供给的东西，比方说查找、翻滚、单击链接等阅读指令。

其次，咱们还探讨了信息的实在性问题，这是言语模型面对的一大难题。 尽管言语模型把握着海量常识，但假如咱们向模型中输入过错的提示，它们或许会输出许多貌同实异的废话。在言语模型范畴，怎么处理这一问题很值得研讨，问题的处理与否也联系着言语模型的展开。

这个问题很有挑战性，最重要的是，咱们要让模型检索、编写带有引证的答案，一起要保证引证来历的可信度。 这样人们就不用再花时刻去寻觅模型答案的来历，他们能够直接点击引证链接，查看模型答案是否可信。

在WebGPT中，咱们企图弄清楚假如咱们的确给言语模型供给了灵活的Web界面，它能否在引证的协助下照实答复问题，搞清楚这一点十分重要。人们查找的问题五花八门，这些问题或许与科学、前史、时势等相关，人工评分员不用定具备这些问题的相关常识，但他们需求判别细节信息，假如没有引证，这就会成为一件难事。所以，在必定程度上，咱们证明晰在引证的协助下能够在艰深范畴内取得良好反应。

Robin Chauhan：WebGPT的主意从何而来？是深思熟虑之后的成果，仍是在论文宣布前忽然冒出来的？成果怎么样？

John Schulman： 这个主意其实由来已久。很久以前，咱们在OpenAI有一个叫作World of Bits的项目（译者注：OpenAI Universe项意图前身）。在那时，咱们想要操控Web阅读器来履行涉及互联网的使命，不过其时还为时过早，所以这个主意放置了几年。

咱们测验过完好的视觉输入，那时的主意是给Agent输入相似“找出大楼地址”等指示，然后Agent会经过Web、谷歌地图等办法寻觅答案，其时咱们企图以像素的办法来完结这一切，但显然这种办法并不好，现在咱们能够用大型言语模型来处理这些文本信息。

咱们能够从网页中提取文本以获取大部分信息，但暂时还不能与动态网站进行实在地交互，由于这些网站中有许多JavaScript和图片等内容，除了这些内容之外，咱们能够很顺畅地阅读和阅览文本。由于咱们的模型足够好，所以从头考虑将互联网作为环境来运用。

另一个动机是，在开端运用GPT-3进行测验之后，咱们留意到它在现实精确性和供给的信息可靠性方面存在问题。 因而，咱们又开端研讨怎么使言语模型更具实在性。咱们先进行了脑筋风暴，终究决议测验运用网络进行问答，查找网络上的常识来帮忙答复问题。

该项意图原始版别实践上运用了一些常见的问答数据集，例如Trivia QA（其间包括一些根本的常识问题）。咱们在该数据集上进行了一些测验，企图经过给模型供给网络查找来进步模型的精确性。 作业展开得很顺畅，所以咱们又转向了长篇问答，使该项意图作业更进一步。

Robin Ranjit：看起来WebGPT想让言语模型能访问外部常识。问题是，你以为哪些东西是言语模型能够知道或许允许查找到的？哪些东西又不能让言语模型访问？这之间有明确的边界吗？

John Schulman： 有人发起运用只包括言语的小型模型，我以为这种立场有点极点；还有人主张允许使言语模型知道一切东西，但不能授权其取得外部常识的途径。我以为，很难将常识、现实性常识与理解区分开来。人类记不住一切东西，但在需求用到某项常识时，咱们能够去查询。

关于特定范畴的作业者来说，进行现实内化是很有用的，这样能够在需求用时快速调用，并在脑海中将其进行组合。

所以这两种说法我都不附和，我以为，检索至少对当前业务很有用，并且咱们也没想过要使神经网络包括人类一切的常识。

另一方面，人类很幸运，已经扩大了模型。随着吸收的现实常识越来越多，模型在推理和其他作业上也会做得越来越好。截止现在，我还没有看到任何微型模型能够做许多检索并保存一切权重以进行推理。

6 行为克隆、奖赏模型、强化学习和拒绝采样

Robin Chauhan：在这个项目中，你好像运用了多个不同的数据集和不同的练习办法，包括行为克隆（behavior cloning）、奖赏模型（reward modeling）、强化学习（reinforcement learning）和拒绝采样（rejection sampling）。

John Schulman： 咱们运用的是一种适当标准的办法，该办法实践上是从以前的RLHF作业中改编而来的。具体流程是，首要运用监督学习来练习一个模型，在这个进程中，人类演示者展现怎么完结使命，例如怎么从调查映射到动作。这个进程便是所谓的监督学习或许行为克隆。

接下来，咱们就会练习一个奖赏模型或偏好模型。它会比较两个动作或两条轨迹，然后决议哪一个更好。在问答的情境下，咱们会比较两个答案并判别哪一个更好。咱们运用这个模型来练习一个奖赏模型，该模型会给答复打分，答复的好，分就高，反之则低。

然后咱们依据这个奖赏函数进行强化学习。当然，在进行少数的强化学习之后，你能够迭代履行最终两个进程。如此一来，就能够运用奖赏模型中的一些缺点或噪声。假如新数据散布不精确，就需求从头搜集更多的样本对，并从头拟合这个偏好模型。然后再进行一轮强化学习。这便是完好的RLHF的流水线。

别的还有一个叫做拒绝采样或许最优端采样（best of end sampling）的主意。一般来说，你也能够进行其他类型的查找。当有了奖赏模型后，你能够对一堆样本进行从头排序，并挑选最好的做法。

Robin Chauhan：这有点像MPC（Model Predictive Control，模型猜测操控）?

John Schulman： 是的。这取决于咱们所在的环境以及所做的作业。假如处于交互式环境中，就有必要模仿环境动态，这一点和MPC很像。在咱们的案例中，唯一需求学习的模型是人类偏好。比方在问答环境中，咱们能够轻易地对一堆操作（actions）进行采样，其间每个操作都是一个完好的答案，并且能够将它们从头排名或查找答案。

Robin Chauhan：就动作空间（action space）而言，它是否仅仅指令列表？仍是说它依然像常规生成模型相同生成tokens？

John Schulman： 咱们正在生成tokens。在咱们的RL使命中，每一回合都有两个阶段。首要是阅读阶段，模型会查找、点击并引证相关信息。比方模型在网页上看到了有用的信息，就会运用quote指令对信息进行引证。

阅读完结后，模型会发出结束阅读的指令，这都会用token来表明。可是，咱们将这个进程整合到了大的RL使命中，一个大的回合（episode）包括了阅读网页和给出答案两个阶段。

Robin Chauhan：这种办法的作用怎么？

John Schulman： 最开端咱们不知道它是否会成功。在咱们用Trivia QA做了开端的试验后，很快就开端运转了，很明显阅读部分起了作用，别的假如给模型一些能够引证的文本片段，它们就能够生成优质的长文本。

7 为什么不能运用外部反应

Robin Chauhan：人工评分员的使命十分杂乱，有很长的评分攻略和多种类型的反应。可是论文最终表明只有终究评级才有用。我想知道为什么模型不能运用外部反应，是由于外部反应太多了仍是由于样本不行？

John Schulman： 是的，这一发现的确让人沮丧。在比照一组答案时，评分员的每次比照都要阅历一个很长的进程，可是咱们只会用到整个进程中的小部分信息，而这一小部分信息的比照时刻或许长达半小时左右。

假如咱们能提取出更多信息，了解更多他们得出答案的进程，那么或许会更好一点。所以咱们搜集了各种其他信息，比方不同维度给出的评分、连贯性和现实精确性等。

因而，我觉得应该还能做得更好。但不幸的是，这种看似有点愚笨的办法其实很难逾越。人们已经测验了各种办法，比方以人类反应来替代偏好分数。此外还有其他的作业能够做，比方能够让模型进行批判性写作或修改答复。

Robin Ranjit：是的，我以为其间一些作业也有或许完结，并且这种搜集偏好数据的办法很有用。

John Schulman： 是的，我以为这依然是一个开放的研讨范畴。

Robin Ranjit：再谈谈那些冗长的指令吧。

John Schulman： 在完结任何使命时，都需求遵从许多奇妙的规矩和细节。因而，在编写攻略时，咱们不断添加了更多细节，比方你在这种状况下会做什么？在另一种状况下又会怎么做？但是，随着细节的不断增加，这些指令变得十分冗长。

不过，这个问题仍是有办法处理。DeepMind宣布了相关文章，运用Sparrow将使命分解成更小的部分并进行练习，人们一次只重视一个部分，以便更好地理解和把握每个部分的细节和规矩。此外，研讨者还练习了多个规矩，特定的奖赏模型，以更好地捕捉使命的不同方面和细节，并在最终进行兼并。

8 强化学习与AGI的未来

Robin Chauhan：自从你发布TRPO和PPO算法以来，强化学习范畴取得了哪些重要的发展？

John Schulman： 在PPO算法之后，呈现了依据价值的TD3和SAC算法，这些算法都体现出了适当高的可靠性。MuZero和Efficient Zero是有用的强化学习算法，Efficient Zero的样本功率体现令人形象深入，它能够在运用更少样本的状况下到达很好的作用。这些算法或许在一些简略的使命（toy task）或基准测验中体现较好，也开端被应用到一些实践问题中，这是十分有意思的。

近来，离线强化学习（offline RL）备受重视。我以为，RLHF便是一种离线强化学习。 由于在练习进程中，它运用的是预先搜集的数据集和奖赏模型数据集，而无需实时与环境进行交互。

Robin Chauhan：RLHF和传统的离线强化学习算法的确有些相似，可是其办法和技能有所不同。传统的离线强化学习算法一般运用Off-policy算法，而依据RLHF算法一般运用On-policy算法和一种奖赏模型。这些差异是否影响了正在履行的使命？

John Schulman：咱们正在做一项相似依据模型的强化学习（model-based RL）的使命，而奖赏模型便是对体系的未知部分的建模。 咱们需求考虑到人类因素的影响，而不是仅仅重视机器的输出成果。

这项使命也相似于运用环境的动力学模型（dynamics model of the environment），并运转一些战略点评算法（policy grading algorithm）来点评模型的作用。尽管对抗机器学习模型的在线算法已经是一种成熟的主意，但之前的研讨所在的情境与现在已经大不同。现在咱们能够运用练习好的预练习模型，只需进行一些小幅度的战略更新即可完结方针，而不用进行大规模的模型更改。因而，咱们选用了这些在线算法，这也与咱们一直在研讨上下文赌博机（contextual bandit）的问题有关。

由于只有一个时刻步，例如，收到一个查询并输出一个响应，然后该响应会取得奖赏。因而，在多进程（multi-step）进程中，不能立即取得奖赏分配。对话便是一个例子，其间涉及到多个进程，不能在每个进程中对其进行奖赏分配。相反，有必要在对话结束后才干分配奖赏。

别的，当模型与一些难以模仿的实在国际体系进行交互时，不能彻底运用相同的办法来处理问题。为了进步办法的采样功率，或许需求选用一些略有不同的办法。例如，能够练习一个Q函数或相似的函数来处理问题。

咱们即将开端探究上述问题。但是，到现在为止，在我所重视的范畴中，尚未发现需求选用该办法的状况。但据我估量，这种办法在未来会变得十分重要。

Robin Chauhan：AGI、RL及大型言语模型之间的联系是什么？它们又是怎么相互配合的？

John Schulman： 强化学习（RL）是练习人工通用智能（AGI）要害办法之一，它能够用来优化Agent的行为，以到达某种方针。在强化学习中，任何方针一般被视为Agent行为函数的一部分。与言语模型预练习相似，强化学习也需求挑选一个方针并运用许多的练习数据（如互联网文本）来优化Agent的行为。

此外，咱们会挑选最大似然方针函数（maximum likelihood objective）来作为Agent的练习方针，尽管还有其他的方针函数可供挑选，但最大似然方针函数是明智之选。假如真的想经过优化Agent行为以到达特定方针，那么强化学习是最适合的框架。

Robin Chauhan：AGI是一种笼统方针吗？仍是说咱们有望在某一天看到AGI模型面世？模型面世之时，人们会惊叹，“这是首个AGI模型”。那么，人们对该模型的点评又会怎么？

John Schulman： 我以为当AGI实在面世的时候，经过多次试用，人们会意识到它并非彻底契合咱们的预期。尽管咱们或许会看到许多模型在某些范畴或某类使命上逾越人类，但它们依然存在一些失效形式和缺点。例如，或许会呈现多个自称AGI的模型，但只有在与其交互一段时刻后，人们才会发现它们无法彻底到达AGI的水平。

Robin Chauhan：据你估量，AGI还有多久面世？

John Schulman： 距AGI的面世不会太悠远，不过进程中必定会呈现许多误判。预计在未来的五年时刻里，AI能够在大多数人类现在从事的作业上体现得比人类更好。 当然，并非一切作业都会被AI取代，人类依然会在某些范畴享有操控权。因而，在未来的10到15年中，咱们会见证AI逐步推进的整个进程。

相关参阅链接

www-technologyreview-com.cdn.ampproject.org/c/s/www.tec…
WebGPT: arxiv.org/abs/2112.09…
InstructGPT：arxiv.org/abs/2203.02…
Our approach to alignment research, OpenAI 2022
Training Verifiers to Solve Math Word Problems, Cobbe et al 2021
UC Berkeley Deep RL Bootcamp Lecture 6: Nuts and Bolts of Deep RL Experimentation, John Schulman 2017
Proximal Policy Optimization Algorithms, Schulman 2017
Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs, Schulman 2016

欢迎 Star、试用 OneFlow 最新版别：
github.com/Oneflow-Inc…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

ChatGPT作者John Schulman：我们成功的秘密武器

1

为什么要重视RLHF

2

用RLHF完结指令跟从模型InstructGPT

3

言语模型的泛化才干

4

AI对齐作业进入第二阶段

5

WebGPT的主意从何而来

6

行为克隆、奖赏模型、强化学习和拒绝采样

7

为什么不能运用外部反应

8

强化学习与AGI的未来

近期文章

近期评论