强化学习之父Richard Sutton：通往AGI的另一种可能

2019年，强化学习之父、阿尔伯塔大学教授Richard Sutton宣布了后来被AI范畴奉为经典的The Bitter lesson，这也是OpenAI研讨员的必读文章。

在这篇文章中，Richard指出，曩昔 70 年来，AI 研讨的一大经历是过于注重人类既有经历和常识，而他以为最大的解决之道是摒弃人类在特定范畴的常识，运用大规模算力才是王道。

这一思想很快得到了OpenAI首席科学家Ilya Sutskever的共鸣，某种程度上，它也启发了大模型范畴所信仰的Scaling Law。

风趣的是，Richard以为，经过言语大模型方历来完结智能没有出路，他更附和Yann LeCun关于国际模型的构想，这在方针与核心概念上与其主导的阿尔伯塔方案（Alberta Plan）相一致，虽然不过在详细完结办法上有所区别。

在他看来，完结AGI需求清晰的方针和一个国际模型，并运用这个模型来制定举动方案以完结方针。

Richard Sutton研讨人工智能已长达45年。他十分想弄清大脑的运作办法，为此做了很多跨学科研讨，阅读了不同思想家对这一问题的观念，并企图从心理学入手，以找出大脑和核算机科学的运作办法。

在Craig Smith近期掌管的一期播客中，Richard详细介绍了阿尔伯塔方案，方针是打造一个可以从与环境的交互中学习并做规划的具身智能体，这是一个宏大的五年方案。此外，他还深化分析了新算法的开展现状、模仿环境和实在环境之间的权衡以及通用人工智能（AGI）的终极方针。

Richard还谈到了与传奇工程师John Carmack的协作。2023年10月，Richard加入了后者创办的AI创业公司Keen Technologies并担任研讨员，这家公司旨在2030年完结AGI。

（以下内容经授权后由OneFlow编译发布，转载请联络授权。来历：www.youtube.com/watch?v=zZu…

来历 | Eye on AI

OneFlow编译

翻译｜杨婷、宛子琳

苦涩的经历：算力常胜

Craig Smith：2019年，你宣布的文章The Bitter lesson说到了增加核算资源的重要性，这一观念在你近期的论文中得到了进一步开展，并且与OpenAI扩展Transformer模型的做法一致。在之前与Ilya Sutskever的访谈中，我曾问询你的文章是否触发了OpenAI扩展Transformer模型的兴趣，但Ilya说，这仅仅一个巧合。相比新颖的算法，核算资源的扩展以及摩尔定律下核算资源的可用性更多地推动了人工智能研讨的开展，对此你怎么看？

Richard Sutton： 首先，核算资源的扩展不只推动了人工智能的开展，还推动了其他科学、工程范畴的开展。核算资源的扩展深刻地影响着咱们这个年代，简直全部科学范畴都受到了大规模核算资源和更普遍的惯例核算资源的深刻影响，世上不存在脱离核算资源而独立开展的科学范畴。众所周知，AI需求核算资源以发明有用的事物并了解思想。

摩尔定律是指，随时刻推移核算才能将呈指数级增加，而本钱则相应下降。每隔两年或18个月算力就会翻倍，这种状况会在近百年内一向继续。跟着核算才能的指数级增加，每十年左右就会呈现质的飞跃，从而给技能和运用带来根本性改变。

关于那些致力于衔接体系（connectionist system）或分布式网络（即神经网络）的人来说，学习是重要的，由于智能需求很多算力。但是，当时这些体系受到了可用核算才能的约束。

其次，长时刻从事人工智能研讨的人对这种指数增加并不意外，这是可预期的。这种指数增加具有自类似性（self-similar），也便是说，这种增加在每个时刻点上看起来都是相同的，每隔一年半算力就会翻倍，这种增加是爆炸性的。

因而，咱们所说的奇点（singularity）实际上是指核算才能的缓慢爆炸性增加，这种增加正深刻地改动着国际。

Craig Smith：你的作业首要会集在强化学习范畴，撰写了有关强化学习、时序差分学习和Lambda等方面的著作，这好像是一个更为大志壮志的方案，Transformer扩展的成功是否影响了你的决议？

Richard Sutton： 阿尔伯塔方案或许比上述书本的方针更为宏大。在人工智能范畴，咱们一向致力于了解并在核算机中仿制整个思想进程，这是一个极具大志的方针。

至于言语大模型，它们在某种程度上有些让人绝望。虽然人们对言语大模型感兴趣，并愿意深化学习，但我并不以为这是最值得追求的方向。 我更感兴趣的是举动、方针以及智能体怎么判断实在性等方面，这些正是言语大模型所欠缺的。言语大模型可以处理杂乱的使命和很多数据，向人们展现了核算、网络和学习的潜力，它仅仅给那些需求看到这些潜力的人展现了这些才能。

AI的下一步：经历学习与具身化

Craig Smith：无论终究创立了何种智能体，是否依然需求一种言语接口来进行交流？

Richard Sutton： 是的，但我不确定当时的言语大模型是否有助于完结这一方针。

Craig Smith：也便是说，你想要构建的模型或智能体会将言语学习作为学习进程的一部分。

Richard Sutton： 是的，但言语是咱们考虑的最终一个要素，而非首要要素。正如Yann LeCun所说，在测验完结人类水平的智能之前，咱们需求先到达老鼠和猫的智能水平，即在追求更高等级的智能之前，咱们需求先了解和把握更根本、更简略的智能办法。

Craig Smith：你现已把握了强化学习，可以构建智能体，有各种不同的架构可以从各种感官输入中创立表明，然后高效地进行规划。那么，你的研讨开展到了哪个阶段？

Richard Sutton： 可以肯定地说，各个进程并不是彻底按次序进行的。咱们一向在寻觅可以取得开展的时机，这个时机或许呈现在第10步，也或许呈现在第3步。总的来说，咱们现在大致处于第4步。咱们仍在修改基础的强化学习算法，这一步还没有完结，由于咱们需求更高效的算法。我对最近咱们正在开发的一些新主意感到很兴奋，这些主意或许会让咱们更快地完结方针。

Craig Smith：可以谈谈这些新主意吗？

Richard Sutton： 其间重要的一点是运用有效的off-policy learning（离战略学习）和重要性采样（importance sampling）。重要性采样指的是，调查在方针战略和行为战略下采取举动的概率，并依据这两者的份额调整报答。长时刻以来，我都以为这是调整报答的仅有办法，但现在我以为，经过改动希望可以进行报答的前向校对，所以假如你希望产生一件功德，希望采取一种好的举动，但实际上采取了另一种更具探索性的举动，这就与你的方针战略有所违背，更为贪心。

考虑到与方针战略的违背，一种办法便是承认现在所做的并非最佳，所以要调整水平，略微下降希望，有一种体系性的办法可以完结这一点。这为咱们提供了处理报答违背的全新办法，因而也带来了一整套全新的算法。这真是令人兴奋。

我以为，现在最引人注目、最新颖的方向，便是继续学习：进行元学习、表明学习、学会怎么学习、学会怎么泛化、以及构建状况表明特征。这一整套进程将是一种全新的深度网络学习办法，我称之为动态学习网络（dynamic learning net）。动态学习网络经过三个层面进行学习，而一般情况下，神经网络只在一个层面上进行学习（只学习权重层面），而咱们还希望它可以在步长（step size）层面上进行学习。因而，网络中的每个权重方位都会有一个步长。

步长有时被称为学习率（learning rate），但称之为步长更好，由于学习率会受到许多其他要素的影响。假如咱们幻想整个网络，全部这些权重周围都有一个步长，这个步长经过一种自习惯进程调整，这种调整是以一种元学习的办法进行的，以元梯度的办法朝着使体系更好地学习而调整，而不只仅是在某一瞬间体现更好。学习率或步长并不会影响函数，它们不会影响某个特定时刻点完结的某个函数，它们影响的是网络的学习。因而，假如你能调整步长，你也将学会学习、学会泛化等等。

除了以上说到的自习惯权重和步长，最终一个要习惯的是衔接办法（connection pattern），即谁与谁相连。这将经过一种增量进程来完结。例如，从一个线性单元开端学习一个值、函数或战略。它会尽力运用现有的特征，然后引发新特征的生成，由于你需求学习原始信号的非线性函数，所以需求发明出对该线性单元可用的新特征，以一种有机的办法逐渐开展出一个可以学习非线性函数的体系。因而，这仅仅以一种不同的办法得到一个深度网络，其间包括全部特征和动态学习网络。

Craig Smith：那么，输入数据来自哪里？

Richard Sutton：输入数据和强化学习源于日子，来自咱们怎么做事以及看待事物的办法，并不存在标记好的数据集。我称之为经历性人工智能（experiential AI）的整个概念中没有人会提供数据。你就像婴儿相同成长，边玩边看，再进行实践，这便是数据来历。而强化学习的诀窍在于，怎么将这种类型的数据转化为你可以学习和培育心智的事物？

监督学习的美好之处和局限性就在于，咱们一般假设现已有一个标示好的数据集，可以解决这个子问题。这是个好主意，咱们先解决一个子问题，搞清楚之后再转向下一个问题。但实际上咱们有必要转向下一个问题，咱们有必要考虑数据集是怎么从练习信息中自动创立的。数据集这一术语实际上充满误导性：暗示着具有数据集、存储数据集以及挑选数据集都很简略。但实际上，日子中产生的全部事，以及你做的全部事，都是瞬间即逝的，你无法记载，且记载这全部不只极端杂乱，也极具价值。

这在强化学习和监督学习中则彻底不同，尤其是我所考虑的办法。许多人经过创立一个缓冲区或记载全部已保留的经历来进行强化学习，这些经历至少在某个时刻段内产生过，我以为这种办法很有吸引力，但并不是答案。实在的答案在于，承受数据稍纵即逝的本质，运用它产生当下的最大价值，然后就随它去。

Craig Smith：这便是为什么你想要创立一个具有全部五官乃至更多感官的实体体系，用于输入数据。那么，你在实验阶段运用的是图画还是视频？

Richard Sutton： 没错，你需求一个具身化的体系，一个可以影响其输入流和感知流的交互式体系，这样互动就可以继续很长一段时刻。你可以在模仿中完结这一点，也可以经过机器人技能做到这一点。我还不知道哪种办法是最好的，或许可以两者兼用，或许先用一种办法，再用另一种办法。John对从视频中学习很感兴趣，他的观念是可以经过很多的视频流完结，例如你正在观看500个电视频道，就可以在各个频道之间不断切换。

在Keen Technologies团队中，我的同事Joseph持有不同的观念。他对机器人技能很感兴趣，他以为获取恰当的数据流的最佳办法实际上是构建机器人硬件。由于国际十分宽广而杂乱，咱们要解决众多的杂乱问题，所以需求视频和大型数据流等等。而现在，可以经过模仿来生成视频流、模仿视频，但不可避免地，这些模仿出的国际实际上适当简略。其间的物体或许是三维结构，看起来是一种十分特别的几许办法，由它们构成生成的虚拟国际。

这个虚拟国际相对智能体来说是相对简略的。他们的方针应该是将大部分核算才能用于处理思想，仅留一小部分用于创立模仿数据，而这恰恰相反。事实是，每个人或许都有一个杂乱的大脑，但他们所在的国际则要杂乱得多，不只由于国际包括了全部物理法则和物质，并且还包括其他的思想、其他的大脑以及其他思想，而这些思想中所产生的事都很重要。

因而，本质上来说，现实国际比智能体要杂乱得多，而当咱们致力于模仿国际时，则本末倒置了，这令人忧虑。无论怎么，以上是运用模仿或物理国际之间需求权衡的一些问题。

Craig Smith：虽然如此，你需求先开宣布架构和算法，然后再担心数据流。

Richard Sutton： 是的，但你需求开发正确的算法，假如你正在处理的国际并不代表你的方针国际，那或许会产生误导。我的作业总在重视一些问题，所以会制定一个十分简略的问题实例，比方一个五种状况的国际，然后对其进行深化研讨。但我并不企图运用其简略性，我研讨的算法在某种意义上乃至比经简化的国际还要简略，我会要点研讨这些算法并调查其才能。

因而，简化国际并充分了解始终是我研讨的一部分，就像物理学家或许会假设一个简化的国际，让一个球沿着斜坡滚动，消除了摩擦力和其他种种影响。

为更智能的未来而设核算法

Craig Smith：你是否重视Alex Kendall在自动驾驭公司Wayve的作业？他们有一个GAIA-1国际模型，从实时视频中对表明进行编码，并依据这些表明进行规划，从而经过表明空间操控轿车。这与Yann LeCun正在做的事很类似。

Richard Sutton： GAIA-1适当了不起。我想罗列一些看似自然但实际是过错的观念。在我看来，过错之一便是测验制作国际的物理模型，或许企图制作可以模仿国际并生成视频帧的模型。你所需求的不是未来的视频画面，这并非你考虑问题的办法。相反，你仅仅想：“哦，我可以去商场，或许会有草莓。” 你并不是在发明视觉视频，而是在考虑着去商场，而草莓的巨细和方位或许会不同，即便没有视频，这是一个关于假如你去商场会产生什么的主意。人们现已意识到了这一点，比方Yann Lecun从前谈到生成未来的视频，然后他意识到这种视频会很模糊，现在他意识到你需求产生模型的成果，这些成果与视频流或调查彻底不同。

它们就像是举动的成果所构建的状况。因而，这与国际的偏微分方程模型彻底不同，也与自动驾驭轿车公司的起点天壤之别。自动驾驭轿车公司从物理学和几许学出发，并由人类的了解、工程师对国际和驾驭的了解进行校准，但我置疑这将会改动。我并没有研讨自动驾驭，但特斯拉这样的公司从工程模型开端，我现在以为，他们正在构建更多依据人工神经网络的概念模型。因而，他们不是从几许学和已知事物出发，而是经过获取很多数据并对其进行练习来构建模型。

咱们需求一个在高层次成果上的模型，而不是在低层次像素和视频上的模型。因而，一种办法是经过具有更高等级的状况特征来完结。 比方判断这是一辆轿车，而不是一帧视频。因而，你根本上需求在状况和时刻上都进行笼统。状况上的笼统就像我方才说到的，到商场时会有草莓；而时刻上的笼统是指，我可以去商场，或许是20分钟后，其他则保持不变或以自然办法相关联。因而，咱们希望模型可以考虑到我可以去商场的问题，还希望模型可以考虑成果，比方可以拿起可乐罐，可以动一下手指，这将产生某些成果。

咱们知道的全部事在不同的尺度上都存在着巨大差异。去商场需求20分钟，承受新作业或许需求一年，决议研讨一个课题也或许需求一段时刻。此外，咱们或许会花时刻考虑并分析成果。比方，你今日想见我，咱们组织一次会晤。而在某些情况下，这是你经过几周乃至几个月的方案，咱们经过规划和交换高层次的信息来筹备这次会晤。把全部这些都幻想成咱们或许用眼睛看到的视频，或或许听到的音频信号，是愚笨且片面的。

咱们需求在时刻和状况上进行笼统的模型。作为一名强化学习研讨人员，我自但是然地转向了一系列特定的技能来完结这一点。这一猜测是依据时刻差分学习的多步猜测，而规划是经过动态规划完结，本质上是价值迭代，但其间的进程并非低层次的动作，而是被称为选项，它们是高层次的行为办法，可以终止。因而，部分选项，比方去商场，当你到达商场时会终止。在某个概念层面上，咱们清楚地知道咱们想去的方位。对我来说，运用笼统模型在时刻和状况上构建选项和特征十分明晰。

最近，咱们在Artificial Intelligence Journal上宣布了一篇论文，探讨了运用子问题进行规划的概念，其间包括了STOMP的开展，STOMP代表子使命、选项、模型和规划。将全部这些内容结合起来，就能从数据流到笼统规划完结整个进程，这便是咱们正在尽力完结的方针。

Craig Smith：回到GAIA-1模型。它的输入是视频，创立了一个表征，并在表征中规划和采取举动。你可以将其解码成视频以查看它的操作，但并不是在视频空间中进行规划。你对此有什么期待？按照你的roadmap，你是否会开发需求扩展的强化学习算法，然后经过核算对其进行扩展？

Richard Sutton： 咱们想要了解思想是怎么运作的，然后咱们将发明一个思想，或许必定程度的思想，这将在各种层面产生价值，包括经济层面。它也有助于咱们扩展自己的思想才能。假如咱们能了解自己的思想是怎么作业的，就可以加以扩展，使其体现得更好。

因而，关键的一步在于了解思想，然后就会有成千上万种用处。我以为，这不会简略地使worker成为咱们所指挥的奴隶，这或许是潜在功效的下限。

正如咱们在Keen所做的作业，假如能制作一个虚拟的worker，用处会很大。咱们日常所做的许多作业并不需求实际呈现机器人，由于许多作业仅仅在处理信息，经过视频接口就可以完结大部分作业。

那么，为什么不能制作出扮演人类人物的才能超群的worker？我以为将会有更多风趣的事可以做。至于应该怎么做，便是丰厚的哲学问题和经济上的实际问题范畴。因而，最重要的是了解思想的运作办法。

阿尔伯塔方案与AGI之路

Craig Smith：我曾与Transformer的作者之一Aidan Gomez进行过一次风趣的对话，他现在创办了自己的公司Cohere。他以为，虽然Transformer算法在可扩展性方面体现出色，但并不是仅有挑选，社区支撑任何一种算法都或许会成功。Aiden Gomez以为，Transformer算法的本质是一种带有注意力机制的多层感知器结构，经过很多的数据练习，可以学习了解言语，但这种依据言语的办法存在显着的局限性。

曩昔几年，我经常和Yann LeCun谈论国际模型，在我看来，这种依据国际模型的办法比依据言语的办法更为激动人心，由于智能不只体现在言语中，乃至可以说其间大部分都没有体现在人类的文字中。随后，我了解到阿尔伯塔方案（Alberta Plan），你们的方针是构建一个具有国际模型的智能体，或许经过与环境的交互来创立国际模型，该方案与Yann LeCun的办法有何本质区别？

Richard Sutton： 这两种办法十分类似，比较Yann LeCun的办法和阿尔伯塔方案可以发现，它们在架构方面根本可以一一对应。虽然这两种办法的详细完结略有不同，但方针和核心概念是类似的。专心于两种办法的差异或许会涣散注意力，疏忽更重要的信息，即完结智能需求清晰的方针和一个国际模型，并运用这个模型来制定举动方案以完结方针。

在我看来，智能的本质是了解国际，并运用这种了解来完结方针。我倾向于将方针办法化为奖赏，其他人或许对这种办法持置疑态度，乃至以为这种办法有些低级，但我以为这是一种自然的办法。关于不熟悉深度学习和监督学习的人来说，将方针表达为奖赏更简略了解和承受。

Craig Smith：阿尔伯塔方案为什么以监督学习为起点？这样做更简略吗？

Richard Sutton： 从某种意义上是这样的，由于咱们想专心于继续学习。望文生义，继续学习便是要不断地学习，学习进程在任何时候都不接连。但是，即便关于监督学习来说，运用非线性网络进行继续学习的初始进程依然具有挑战性，但相比之下，监督学习涉及到的其他要素最少，因而，这是一个自但是然的挑选。

在曩昔几十年里，监督学习和强化学习之间一向存在竞赛。由于学习办法的资源有限，监督学习的重视度较高，而这对强化学习构成了必定挑战。监督学习之所以胜出，是由于它更简略实践，更易于运用。虽然监督学习相对来说野心更小，但它却十分重要。那些从事强化学习或测验构建整体智能体架构的人，都需求依赖监督学习的输出成果作为整体架构的组成部分。因而，咱们需求监督学习，并且可以对其进行研讨和调整，以满足目的。

Craig Smith：在一段时刻里，强化学习和监督学习好像占据主导地位。而现在，依据Transformer的生成式人工智能处于主导地位，但在监督学习占据主导的阶段存在争辩，以为更高层次的常识都源自监督学习，而现在也仍是监督学习。

Richard Sutton： 在生成式人工智能言语大模型中，更高层次的常识依然源于监督学习。经过下一个词元、下一个单词进行练习，是正确的。

Craig Smith：你经常说到的类比是，一个孩子看到大象，母亲说那是一只大象，孩子很快就能进行泛化并认出其他的大象；或许孩子会犯错，母亲会纠正并说那是一头牛，这经常被作为监督学习的例子，但或许这是强化学习，或许是母亲由于孩子记住了标签而夸奖他的奖赏。

Richard Sutton： 关键是孩子在此之前现已形成了良好的概念以及类别概念。当母亲说那是一只大象时，孩子现已在很大程度上了解了。你知道空间是什么，物体是什么，以及正在被标示的事物。标签是其间最不重要的部分，孩子现已学会了全部最风趣的部分，也便是具有动物、运动物体和物体在其国际中所代表的意义。

Craig Smith：人们现已开端运用强化学习来构建智能体并运用言语大模型和常识库来执行常识型使命。你所说的不只仅是言语型使命或常识型使命，而是物理规划和物理使命。

Richard Sutton： 关键在于设定方针。例如，你有一个帮手帮你规划一天，组织一天的作业或为你完结使命，帮手最重要的部分或许便是了解所涉及的方针。

言语大模型并没有实在了解它们的目的，仅仅表面上好像做到了这一点，但特别情况总是会呈现。假如一个人工智能体系在一段时刻后做出不符合的方针，那将不会成为一位有用的帮手。因而，言语大模型虽然十分有用，但它们一起也存在适当严重的局限性，这并不是批判。

Craig Smith：能否分享一下阿尔伯塔方案的开展？

Richard Sutton： 阿尔伯塔方案旨在将智能视为一种学习现象，即了解环境并经过对环境的驱动来完结方针。在该方案的第一步，要点是树立智能体与环境之间的结构和交互办法。这种交互不是简略地交换状况，而是经过调查来进行，这些调查可以来自各种感官，如视觉、触觉和听觉。这些调查是实在的，而不是简略的状况，由于咱们无法直接获取状况。

阿尔伯塔方案的首要原则是智能体与环境的互动。第二原则是继续学习。阿尔伯塔方案具有时刻上的一致性和对称性，也便是说没有特定的练习和测试阶段，在这个继续不断的进程中，你或许会取得想要的奖赏（也或许不会），一起还会得到调查。这个进程并没有专门的指导老师，智能体只能经过在经历中取得的奖赏和惩罚来调整自己的行为。

阿尔伯塔方案的另一个要点是：智能体将树立模型，并依据这个模型进行规划。这包括两种学习办法：一种是经过试错学习直接从经历中取得常识，另一种是学习树立模型，然后运用该模型进行规划和决议计划。这两种学习办法都是智能的重要组成部分。

上述是布景介绍，阿尔伯塔方案有12个进程。这12个进程的第一步是保证学习是接连的，然后是元学习，即学习怎么学习。不只仅是学习一种技能，而是在不断学习的进程中积累各种经历，从中变得更加擅长学习。咱们可以运用这些不断重复的学习经历来进步未来的学习效率。因而，在这个进程中，咱们会学到各种技巧和办法，比方表明办法、特征以及学习进程的巨细。接着是继续学习和各种算法，一旦咱们将元学习、继续学习和监督学习结合起来，就可以扩展到强化学习，其间包括更多风趣的时刻关系。

阿尔伯塔方案的前六个进程是构建强化学习的根本算法，并经过不断回忆和完善，使其成为继续学习和元学习。然后，再引进一些挑战性问题，如离战略学习（learning off policy）和学习国际模型以及规划。最终一步是智能增强（IA），即将核算机人工智能与咱们自己的思想结合起来，以增强咱们的思想才能。

在阿尔伯塔方案中，离战略学习和学习国际模型是其间的关键进程之一。离战略学习意味着智能体可以学习未彻底执行的使命或行为。例如，即便是辨认一个物体，也需求调查并以客观的办法界说其特征，而子问题是这一使命的最佳处理办法。

阿尔伯塔方案最具特色的战略是将大问题分解为许多子问题，并一起处理这些子问题。虽然智能体的首要方针是取得奖赏，但它一起也会处理许多其他子问题。由于智能体无法一起处理全部子问题，因而需求挑选一个首要问题，而其他子问题则经过学习来解决，离战略学习是高效学习国际模型的关键。

Craig Smith：你提出的部落架构（horde architecture）是否是指将问题分解为多个子使命并进行学习？

Richard Sutton： 部落架构是咱们在一篇论文中提出来的。部落指的是一系列子问题，其间每个demo类似于神经网络中的单个神经元，专心于解决不同使命或猜测不同成果。部落架构将思想看作是去中心化的，但全部部分终究都朝着一个方针尽力。这种结构可以驱动不同部分，是一个很有用的结构。

与John Carmack的Keen Technologies协作

Craig Smith：你与John Carmack（电脑游戏范畴的传奇工程师）的协作是否出于资金方面的考虑？究竟Yann LeCun的背面是Meta。

Richard Sutton： 这两者并不能混为一谈。虽然John的公司很棒，但它仅仅一家价值2000万美元的公司，这关于咱们现在的需求来说现已足够了。我和John联手是由于咱们对完结通用人工智能的办法有着类似的主意。我曾读过一篇关于John的新闻报道，虽然咱们的布景有所不同，但感觉他的考虑办法与我很类似。

当谈及智能时，咱们需求清晰一些根本原则，而不是设计一个包括一千万行代码的庞大程序。全球范围内筹集用于基础研讨的资金依然很困难，但AI运用的资金相对简略取得，特别是针对言语大模型的资金。

总归，我十分享用在Keen的作业，在这里我可以专心于自己的主意，Keen的作业气氛十分安静，咱们会花很多时刻考虑和反思，除此之外，还会进行一些实验。对我来说，可以重新整理我的思绪，并细心考虑它们，推动它们向前开展十分重要。

Craig Smith：Keen是否在执行阿尔伯塔方案？

Richard Sutton： 阿尔伯塔方案是一个五年研讨方案，而非执行项目，研讨不会总是按照人们的希望进行。

Craig Smith：你们在Keen的作业是否受到了阿尔伯塔方案的启发呢？

Richard Sutton： 是的，究竟我正在研讨阿尔伯塔方案。

Craig Smith：Keen的终究方针是否是创立阿尔伯塔方案中描绘的具身智能体？

Richard Sutton： 按方案完结的几率很大，但不能百分百确定，究竟方案赶不上改变，但不管成果怎么，咱们有必要做出决议计划，并认真考虑，由于咱们很有或许是正确的。

关于AI安全和AGI完结的争辩

Craig Smith：你是否对人工智能感到忧虑？是否附和关于其要挟论观念？

Richard Sutton： 那些悲观者不仅仅过错的，更充满了盲目的成见。这种成见让他们无视正在产生的事。本质上来说，人工智能是一种广泛适用的技能，它不同于核武器，也不同于生物武器。它可以被用于各种范畴，咱们应该对其善加运用。总会有人将其用于不良用处，这很正常，正常的技能也或许被好人或坏人运用。

那些悲观者则以为，这种技能有问题，就像核武器相同存在要挟，他们被这种隐喻所蒙蔽，以为人工智能会找上门来置人于死地，这纯属荒谬。悲观者其实并没有提出他们所相信的合乎逻辑的理由，因而很难与他们争辩。或许合理的观念是以为他们有成见且目光短浅。

Craig Smith：John Carmack说2030年或许完结AGI，届时会产生什么？或许到了2030年人们都不会记住他说过这个时刻。

Richard Sutton： 这个时刻点提出很长时刻了，不会被淡忘。关于核算机功能到达人类规模的数量，一向以来的时刻点都是2030年，但无论怎么，2030年对咱们来说是一个合理的方针，咱们需求了解全部才能发明出实在的思想。

这个方针很有意义，我一向说，2030年有25%的时机完结实在的人类水平的智能。25%的或许性看似不高，但这现已是足够大的概率了，有大志壮志的人应该朝着这个方针尽力，并尽力使之成为现实，并且这取决于咱们的举动，咱们应该尽力做到这一点。

现在，正在产生的一件大事是，公众正逐渐认识到了解思想和发明有思想的事物意味着什么，这是国际观的一次重大改变，咱们需求各范畴人士的协助，让咱们更简略了解在完结人类水平的智能时产生了什么。

【OneDiff v0.12.1 正式发布（出产环境稳定加快SD&SVD）】本次更新包括以下亮点，欢迎体验新版本：
github.com/siliconflow/onediff

SDXL 和 SVD 的 SOTA 功能更新

全面支撑SD和SVD动态分辨率运转

编译/保存/加载HF Diffusers的pipeline

HF Diffusers的快速LoRA加载和切换

加快了 InstantID（加快1.8倍）

加快了 SDXL Lightning

（SDXL E2E Time）

（SVD E2E Time）

更多详情：
www.reddit.com/r/StableDif…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

强化学习之父Richard Sutton：通往AGI的另一种可能

近期文章

近期评论