英伟达AI智能体接入GPT-4，完胜AutoGPT！自主写代码独霸我的世界，无需人类插手

【新智元导读】给游戏职业来点GPT-4式震慑？这个叫Voyager的智能体不只能够依据游戏的反应自主练习，而且还能自行写代码推动游戏使命。

继斯坦福的25人小镇后，AI智能体又出爆款新作了。

最近，英伟达首席科学家Jim Fan等人把GPT-4整进了「我的国际」（Minecraft）——提出了一个全新的AI智能体Voyager。

英伟达AI智能体接入GPT-4，完胜AutoGPT！自主写代码独霸我的世界，无需人类插手

Voyager的厉害之处在于，它不只功能完胜AutoGPT，而且还能够在游戏中进行全场景的终身学习！

比起之前的SOTA，Voyager取得的物品多出了3.3倍，游览间隔变长了2.3倍，解锁关键技术树的速度快了15.3倍。

对此，网友直接震动了：咱们离通用人工智能AGI，又近了一步。

所以，未来的游戏，便是由大模型带动NPC来玩的吧？

真数字生命

接入GPT-4之后，Voyager根本不必人类操心，完全便是自学成才。

它不只把握了挖掘、建房子、搜集、打猎这些根本的生存技术，还学会了自个进行开放式探究。

它会自己去到不同的城市，路过一片片海洋，一座座金字塔，乃至还会自己搭建传送门。

经过自我驱动，它不断探究着这个奇特的国际，扩大着自己的物品和装备，装备不同等级的铠甲，用盾牌格挡上海，用栅门圈养动物……

论文地址：arxiv.org/abs/2305.16…

项目地址：voyager.minedojo.org/

Voyager的勇敢事迹包含但不限于——

大战末影人

造基地

挖紫水晶

挖金子

搜集仙人掌

打猎

钓鱼

数字生命的潜能究竟有多大？咱们只知道，现在Voyager依然在Minecraft中一刻不停地探究，不断扩展着自己的边境。

「练习」无需梯度下降

此前，AI范畴的一大挑战便是，构建具有通用才能的具身智能体，让它们在开放国际中自主探究，自行开展新技术。

以往，学界都是采用强化学习和仿照学习，但这些办法在系统化的探究、可解释性和泛化性等方面，体现往往差强人意。

大语言模型的出现，给构建具身智能体带来了全新的可能性。由于依据LLM的智能体能够运用预练习模型中包含的国际常识，生成一致的行动计划或可履行策略，这就十分合适应用于游戏和机器人之类的使命。

此前，斯坦福研讨者构建出世活着25个AI智能体的虚拟小镇，震动了AI社区

这种智能体还有一个好处便是，不需要具体化的自然语言处理使命。

然而，这些智能体依然无法摆脱这样的缺陷——无法终身学习，因此不能在较长时间跨度上逐渐获取常识，而且将它们堆集下来。

而这项作业最重要的意义就在于，GPT-4开启了一种新的范式：这个过程中是靠代码履行「练习」，而非靠梯度下降。

Jim Fan解释道：咱们在BabyAGI/AutoGPT之前就有了这个主意，花了许多时间找出最好的无梯度架构

「练习模型」是Voyager迭代式构建的技术代码库，而非浮点数矩阵。经过这种办法，团队正在将无梯度架构推向极限。

在这种状况下练习出的智能体，已经具有了同人类相同的终身学习才能。

比方，Voyager假如发现自己处在沙漠而非森林中，就会知道学会搜集沙子和仙人掌就比学会搜集铁矿更重要。

而且，它不只能依据现在的技术水平缓国际状况清晰自己最合适的使命，还能依据反应不断完善技术，保存在回忆中，留在下次调用。

所以，咱们离硅基生命出现还有多远？

刚刚回到OpenAI的Karpathy对这个作业表示盛赞：这是个用于高级技术的「无梯度架构」。在这里，LLM就适当所以前额叶皮层，经过代码生成了较低级的mineflayer API。

Karpathy回忆起，在2016年左右，智能体在Minecraft环境中的体现还很让人绝望。其时的RL只能从超稀疏的奖赏中随机地探究履行长时间使命的办法，让人感觉十分stuck。

而现在，这个妨碍已经在很大程度上被解除了——正确的做法是另辟蹊径，首要练习LLM从互联网文本上学习国际常识、推理和东西运用（尤其是编写代码），然后直接把问题抛给它们。

最后他感慨道：假如我在2016年就读到这种对智能体的「无梯度」办法，我肯定会大吃一惊。

微博大V「宝玉xp」也对这个作业给予了高度评价——

真的是了不得的测验，整个代码都是开源的，这种主动生成使命->主动写代码履行使命->保存一个代码库能够重用的思路，应该是能够很容易应用到其他范畴。

Voyager

与其他AI研讨中常用的游戏不同，Minecraft并没有强加预界说的结尾方针或固定的剧情线，而是供给了一个具有无尽可能性的游乐场。

关于一个有用的终身学习智能体来说，它应该具有与人类玩家相似的才能：

依据其当时的技术水平缓国际状况提出适当的使命，例如，假如它发现自己是在沙漠而不是森林中，就会在学习搜集铁之前学习搜集沙子和仙人掌
依据环境反应来完善技术，并将把握的技术记入回忆，以便在相似状况下重复运用（例如，与僵尸战役与与蜘蛛战役相似）
继续探究国际，以自我驱动的办法寻觅新的使命。

为了让Voyager具有上述这些才能，来自英伟达、加州理工学院、得克萨斯大学奥斯汀分校和亚利桑那州立大学的团队提出了3个关键组件：

1. 一个迭代提示机制，能结合游戏反应、履行过错和自我验证来改善程序

2. 一个技术代码库，用来存储和检索杂乱行为

3. 一个主动教程，能够最大化智能体的探究

首要，Voyager会测验运用一个流行的Minecraft JavaScript API（Mineflayer）来编写一个实现特定方针的程序。

虽然程序在第一次测验时就出错了，但是游戏环境反应和JavaScript履行过错（假如有的话）会协助GPT-4改善程序。

左：环境反应。GPT-4意识到在制造木棒之前还需要2块木板。

右：履行过错。GPT-4意识到它应该制造一把木斧，而不是一把「想念木」斧，由于Minecraft中并没有「想念木」斧。

经过供给智能体当时的状况和使命，GPT-4会告知程序是否完成了使命。

此外，假如使命失败了，GPT-4还会提出批评，建议怎么完成使命。

自我验证

其次，Voyager经过在向量数据库中存储成功的程序，逐渐树立一个技术库。每个程序能够经过其文档字符串的嵌入来检索。

杂乱的技术是经过组合简单的技术来合成的，这会使Voyager的才能随着时间的推移迅速增长，并缓解灾难性忘记。

上：添加技术。每个技术都由其描述的嵌入索引，能够在将来的相似状况中检索。

下：检索技术。当面对主动课程提出的新使命时，会进行查询并辨认前5个相关技术。

第三，主动课程会依据智能体当时的技术水平缓国际状况，提出合适的探究使命。

例如，假如它发现自己在沙漠而非森林中，就学习收集沙子和仙人掌，而不是铁。

具体来说，课程是由GPT-4依据「发现尽可能多样化的东西」这个方针生成的。

主动课程

实验

接下来，让咱们看一些实验！

团队将Voyager与其他依据LLM的智能体技术进行了系统性的比较，比方ReAct、Reflexion，以及在Minecraft中广受欢迎的AutoGPT。

在160次提示迭代中，Voyager发现了63个共同的物品，比之前的SOTA多出3.3倍。

寻求别致的主动课程自然会驱使Voyager进行广泛的游览。即使没有清晰的指示，Voyager也会遍历更长的间隔（2.3倍），拜访更多的地形。

相比之下，之前的办法就显得十分「懒散」了，经常会在一小片区域里兜圈子。

地图探究率

那么，经过终身学习后的「练习模型」——技术库，体现怎么呢？

团队清空了物品/护甲，生成了一个新的国际，并用从未见过的使命对智能体进行了测验。

能够看到，Voyager处理使命的速度显着比其他办法更快。

值得注意的是，从终身学习中构建的技术库不只进步了Voyager的功能，也提升了AutoGPT的功能。

这表明，技术库作为一种通用东西，能够有用地作为一个即插即用的办法来进步功能。

零样本泛化

上图中的数字是三次试验中提示迭代的平均值。迭代次数越少，办法越有用。能够看到，Voyager处理了一切的使命，而AutoGPT经过50次提示迭代都无法处理。

此外，与其他办法相比，Voyager在解锁木东西上快了15.3倍，石东西快8.5倍，铁东西快6.4倍。而且具有技术库的Voyager是仅有解锁钻石东西的。

技术树把握状况（木东西 → 石东西 → 铁东西 → 钻石东西）

现在，Voyager只支撑文本，但在未来能够经过视觉感知进行增强。

在团队进行的一个初步研讨中，人类能够像一个图画标示模型相同，向智能体供给反应。

从而让Voyager能够构建杂乱的3D结构，比方地狱门和房子。

结果表明，Voyager的功能优于一切替代方案。此外，GPT-4在代码生成方面也显着优于GPT-3.5。

融化实验

结论

Voyager是第一个由LLM驱动、能够终身学习的具身智能体。它能够运用GPT-4不停地探究国际，开发越来越杂乱的技术，并始终能在没有人工干预的状况下进行新的发现。

在发现新物品、解锁Minecraft技术树、穿越多样化地形，以及将其学习到的技术库应用于新生成国际中的未知使命方面，Voyager体现出了优胜的功能。

关于通用智能体的开发来说，无需调整模型参数的Voyager是能够作为一个起点的。

参考资料：

voyager.minedojo.org/

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

英伟达AI智能体接入GPT-4，完胜AutoGPT！自主写代码独霸我的世界，无需人类插手

【新智元导读】给游戏职业来点GPT-4式震慑？这个叫Voyager的智能体不只能够依据游戏的反应自主练习，而且还能自行写代码推动游戏使命。

近期文章

近期评论