【新智元导读】给游戏职业来点GPT-4式震慑?这个叫Voyager的智能体不只能够依据游戏的反应自主练习,而且还能自行写代码推动游戏使命。

继斯坦福的25人小镇后,AI智能体又出爆款新作了。

最近,英伟达首席科学家Jim Fan等人把GPT-4整进了「我的国际」(Minecraft)——提出了一个全新的AI智能体Voyager。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

Voyager的厉害之处在于,它不只功能完胜AutoGPT,而且还能够在游戏中进行全场景的终身学习!

比起之前的SOTA,Voyager取得的物品多出了3.3倍,游览间隔变长了2.3倍,解锁关键技术树的速度快了15.3倍。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

对此,网友直接震动了:咱们离通用人工智能AGI,又近了一步。

所以,未来的游戏,便是由大模型带动NPC来玩的吧?

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

真数字生命

接入GPT-4之后,Voyager根本不必人类操心,完全便是自学成才。

它不只把握了挖掘、建房子、搜集、打猎这些根本的生存技术,还学会了自个进行开放式探究。

它会自己去到不同的城市,路过一片片海洋,一座座金字塔,乃至还会自己搭建传送门。

经过自我驱动,它不断探究着这个奇特的国际,扩大着自己的物品和装备,装备不同等级的铠甲,用盾牌格挡上海,用栅门圈养动物……

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

论文地址:arxiv.org/abs/2305.16…

项目地址:voyager.minedojo.org/

Voyager的勇敢事迹包含但不限于——

大战末影人

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

造基地

挖紫水晶

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

挖金子

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

搜集仙人掌

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

打猎

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

钓鱼

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

数字生命的潜能究竟有多大?咱们只知道,现在Voyager依然在Minecraft中一刻不停地探究,不断扩展着自己的边境。

「练习」无需梯度下降

此前,AI范畴的一大挑战便是,构建具有通用才能的具身智能体,让它们在开放国际中自主探究,自行开展新技术。

以往,学界都是采用强化学习和仿照学习,但这些办法在系统化的探究、可解释性和泛化性等方面,体现往往差强人意。

大语言模型的出现,给构建具身智能体带来了全新的可能性。由于依据LLM的智能体能够运用预练习模型中包含的国际常识,生成一致的行动计划或可履行策略,这就十分合适应用于游戏和机器人之类的使命。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

此前,斯坦福研讨者构建出世活着25个AI智能体的虚拟小镇,震动了AI社区

这种智能体还有一个好处便是,不需要具体化的自然语言处理使命。

然而,这些智能体依然无法摆脱这样的缺陷——无法终身学习,因此不能在较长时间跨度上逐渐获取常识,而且将它们堆集下来。

而这项作业最重要的意义就在于,GPT-4开启了一种新的范式:这个过程中是靠代码履行「练习」,而非靠梯度下降。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

Jim Fan解释道:咱们在BabyAGI/AutoGPT之前就有了这个主意,花了许多时间找出最好的无梯度架构

「练习模型」是Voyager迭代式构建的技术代码库,而非浮点数矩阵。经过这种办法,团队正在将无梯度架构推向极限。

在这种状况下练习出的智能体,已经具有了同人类相同的终身学习才能。

比方,Voyager假如发现自己处在沙漠而非森林中,就会知道学会搜集沙子和仙人掌就比学会搜集铁矿更重要。

而且,它不只能依据现在的技术水平缓国际状况清晰自己最合适的使命,还能依据反应不断完善技术,保存在回忆中,留在下次调用。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

所以,咱们离硅基生命出现还有多远?

刚刚回到OpenAI的Karpathy对这个作业表示盛赞:这是个用于高级技术的「无梯度架构」。在这里,LLM就适当所以前额叶皮层,经过代码生成了较低级的mineflayer API。

Karpathy回忆起,在2016年左右,智能体在Minecraft环境中的体现还很让人绝望。其时的RL只能从超稀疏的奖赏中随机地探究履行长时间使命的办法,让人感觉十分stuck。

而现在,这个妨碍已经在很大程度上被解除了——正确的做法是另辟蹊径,首要练习LLM从互联网文本上学习国际常识、推理和东西运用(尤其是编写代码),然后直接把问题抛给它们。

最后他感慨道:假如我在2016年就读到这种对智能体的「无梯度」办法,我肯定会大吃一惊。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

微博大V「宝玉xp」也对这个作业给予了高度评价——

真的是了不得的测验,整个代码都是开源的,这种主动生成使命->主动写代码履行使命->保存一个代码库能够重用的思路,应该是能够很容易应用到其他范畴。

Voyager

与其他AI研讨中常用的游戏不同,Minecraft并没有强加预界说的结尾方针或固定的剧情线,而是供给了一个具有无尽可能性的游乐场。

关于一个有用的终身学习智能体来说,它应该具有与人类玩家相似的才能:

  1. 依据其当时的技术水平缓国际状况提出适当的使命,例如,假如它发现自己是在沙漠而不是森林中,就会在学习搜集铁之前学习搜集沙子和仙人掌

  2. 依据环境反应来完善技术,并将把握的技术记入回忆,以便在相似状况下重复运用(例如,与僵尸战役与与蜘蛛战役相似)

  3. 继续探究国际,以自我驱动的办法寻觅新的使命。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

为了让Voyager具有上述这些才能,来自英伟达、加州理工学院、得克萨斯大学奥斯汀分校和亚利桑那州立大学的团队提出了3个关键组件:

1. 一个迭代提示机制,能结合游戏反应、履行过错和自我验证来改善程序

2. 一个技术代码库,用来存储和检索杂乱行为

3. 一个主动教程,能够最大化智能体的探究

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

首要,Voyager会测验运用一个流行的Minecraft JavaScript API(Mineflayer)来编写一个实现特定方针的程序。

虽然程序在第一次测验时就出错了,但是游戏环境反应和JavaScript履行过错(假如有的话)会协助GPT-4改善程序。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

左:环境反应。GPT-4意识到在制造木棒之前还需要2块木板。

右:履行过错。GPT-4意识到它应该制造一把木斧,而不是一把「想念木」斧,由于Minecraft中并没有「想念木」斧。

经过供给智能体当时的状况和使命,GPT-4会告知程序是否完成了使命。

此外,假如使命失败了,GPT-4还会提出批评,建议怎么完成使命。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

自我验证

其次,Voyager经过在向量数据库中存储成功的程序,逐渐树立一个技术库。每个程序能够经过其文档字符串的嵌入来检索。

杂乱的技术是经过组合简单的技术来合成的,这会使Voyager的才能随着时间的推移迅速增长,并缓解灾难性忘记。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

上:添加技术。每个技术都由其描述的嵌入索引,能够在将来的相似状况中检索。

下:检索技术。当面对主动课程提出的新使命时,会进行查询并辨认前5个相关技术。

第三,主动课程会依据智能体当时的技术水平缓国际状况,提出合适的探究使命。

例如,假如它发现自己在沙漠而非森林中,就学习收集沙子和仙人掌,而不是铁。

具体来说,课程是由GPT-4依据「发现尽可能多样化的东西」这个方针生成的。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

主动课程

实验

接下来,让咱们看一些实验!

团队将Voyager与其他依据LLM的智能体技术进行了系统性的比较,比方ReAct、Reflexion,以及在Minecraft中广受欢迎的AutoGPT。

在160次提示迭代中,Voyager发现了63个共同的物品,比之前的SOTA多出3.3倍。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

寻求别致的主动课程自然会驱使Voyager进行广泛的游览。即使没有清晰的指示,Voyager也会遍历更长的间隔(2.3倍),拜访更多的地形。

相比之下,之前的办法就显得十分「懒散」了,经常会在一小片区域里兜圈子。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

地图探究率

那么,经过终身学习后的「练习模型」——技术库,体现怎么呢?

团队清空了物品/护甲,生成了一个新的国际,并用从未见过的使命对智能体进行了测验。

能够看到,Voyager处理使命的速度显着比其他办法更快。

值得注意的是,从终身学习中构建的技术库不只进步了Voyager的功能,也提升了AutoGPT的功能。

这表明,技术库作为一种通用东西,能够有用地作为一个即插即用的办法来进步功能。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

零样本泛化

上图中的数字是三次试验中提示迭代的平均值。迭代次数越少,办法越有用。能够看到,Voyager处理了一切的使命,而AutoGPT经过50次提示迭代都无法处理。

此外,与其他办法相比,Voyager在解锁木东西上快了15.3倍,石东西快8.5倍,铁东西快6.4倍。而且具有技术库的Voyager是仅有解锁钻石东西的。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

技术树把握状况(木东西 → 石东西 → 铁东西 → 钻石东西)

现在,Voyager只支撑文本,但在未来能够经过视觉感知进行增强。

在团队进行的一个初步研讨中,人类能够像一个图画标示模型相同,向智能体供给反应。

从而让Voyager能够构建杂乱的3D结构,比方地狱门和房子。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

结果表明,Voyager的功能优于一切替代方案。此外,GPT-4在代码生成方面也显着优于GPT-3.5。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

融化实验

结论

Voyager是第一个由LLM驱动、能够终身学习的具身智能体。它能够运用GPT-4不停地探究国际,开发越来越杂乱的技术,并始终能在没有人工干预的状况下进行新的发现。

在发现新物品、解锁Minecraft技术树、穿越多样化地形,以及将其学习到的技术库应用于新生成国际中的未知使命方面,Voyager体现出了优胜的功能。

关于通用智能体的开发来说,无需调整模型参数的Voyager是能够作为一个起点的。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

参考资料:

voyager.minedojo.org/