【新智元导读】给游戏职业来点GPT-4式震慑?这个叫Voyager的智能体不只能够依据游戏的反应自主练习,而且还能自行写代码推动游戏使命。
继斯坦福的25人小镇后,AI智能体又出爆款新作了。
最近,英伟达首席科学家Jim Fan等人把GPT-4整进了「我的国际」(Minecraft)——提出了一个全新的AI智能体Voyager。
Voyager的厉害之处在于,它不只功能完胜AutoGPT,而且还能够在游戏中进行全场景的终身学习!
比起之前的SOTA,Voyager取得的物品多出了3.3倍,游览间隔变长了2.3倍,解锁关键技术树的速度快了15.3倍。
对此,网友直接震动了:咱们离通用人工智能AGI,又近了一步。
所以,未来的游戏,便是由大模型带动NPC来玩的吧?
真数字生命
接入GPT-4之后,Voyager根本不必人类操心,完全便是自学成才。
它不只把握了挖掘、建房子、搜集、打猎这些根本的生存技术,还学会了自个进行开放式探究。
它会自己去到不同的城市,路过一片片海洋,一座座金字塔,乃至还会自己搭建传送门。
经过自我驱动,它不断探究着这个奇特的国际,扩大着自己的物品和装备,装备不同等级的铠甲,用盾牌格挡上海,用栅门圈养动物……
论文地址:arxiv.org/abs/2305.16…
项目地址:voyager.minedojo.org/
Voyager的勇敢事迹包含但不限于——
大战末影人
造基地
挖紫水晶
挖金子
搜集仙人掌
打猎
钓鱼
数字生命的潜能究竟有多大?咱们只知道,现在Voyager依然在Minecraft中一刻不停地探究,不断扩展着自己的边境。
「练习」无需梯度下降
此前,AI范畴的一大挑战便是,构建具有通用才能的具身智能体,让它们在开放国际中自主探究,自行开展新技术。
以往,学界都是采用强化学习和仿照学习,但这些办法在系统化的探究、可解释性和泛化性等方面,体现往往差强人意。
大语言模型的出现,给构建具身智能体带来了全新的可能性。由于依据LLM的智能体能够运用预练习模型中包含的国际常识,生成一致的行动计划或可履行策略,这就十分合适应用于游戏和机器人之类的使命。
此前,斯坦福研讨者构建出世活着25个AI智能体的虚拟小镇,震动了AI社区
这种智能体还有一个好处便是,不需要具体化的自然语言处理使命。
然而,这些智能体依然无法摆脱这样的缺陷——无法终身学习,因此不能在较长时间跨度上逐渐获取常识,而且将它们堆集下来。
而这项作业最重要的意义就在于,GPT-4开启了一种新的范式:这个过程中是靠代码履行「练习」,而非靠梯度下降。
Jim Fan解释道:咱们在BabyAGI/AutoGPT之前就有了这个主意,花了许多时间找出最好的无梯度架构
「练习模型」是Voyager迭代式构建的技术代码库,而非浮点数矩阵。经过这种办法,团队正在将无梯度架构推向极限。
在这种状况下练习出的智能体,已经具有了同人类相同的终身学习才能。
比方,Voyager假如发现自己处在沙漠而非森林中,就会知道学会搜集沙子和仙人掌就比学会搜集铁矿更重要。
而且,它不只能依据现在的技术水平缓国际状况清晰自己最合适的使命,还能依据反应不断完善技术,保存在回忆中,留在下次调用。
所以,咱们离硅基生命出现还有多远?
刚刚回到OpenAI的Karpathy对这个作业表示盛赞:这是个用于高级技术的「无梯度架构」。在这里,LLM就适当所以前额叶皮层,经过代码生成了较低级的mineflayer API。
Karpathy回忆起,在2016年左右,智能体在Minecraft环境中的体现还很让人绝望。其时的RL只能从超稀疏的奖赏中随机地探究履行长时间使命的办法,让人感觉十分stuck。
而现在,这个妨碍已经在很大程度上被解除了——正确的做法是另辟蹊径,首要练习LLM从互联网文本上学习国际常识、推理和东西运用(尤其是编写代码),然后直接把问题抛给它们。
最后他感慨道:假如我在2016年就读到这种对智能体的「无梯度」办法,我肯定会大吃一惊。
微博大V「宝玉xp」也对这个作业给予了高度评价——
真的是了不得的测验,整个代码都是开源的,这种主动生成使命->主动写代码履行使命->保存一个代码库能够重用的思路,应该是能够很容易应用到其他范畴。
Voyager
与其他AI研讨中常用的游戏不同,Minecraft并没有强加预界说的结尾方针或固定的剧情线,而是供给了一个具有无尽可能性的游乐场。
关于一个有用的终身学习智能体来说,它应该具有与人类玩家相似的才能:
-
依据其当时的技术水平缓国际状况提出适当的使命,例如,假如它发现自己是在沙漠而不是森林中,就会在学习搜集铁之前学习搜集沙子和仙人掌
-
依据环境反应来完善技术,并将把握的技术记入回忆,以便在相似状况下重复运用(例如,与僵尸战役与与蜘蛛战役相似)
-
继续探究国际,以自我驱动的办法寻觅新的使命。
为了让Voyager具有上述这些才能,来自英伟达、加州理工学院、得克萨斯大学奥斯汀分校和亚利桑那州立大学的团队提出了3个关键组件:
1. 一个迭代提示机制,能结合游戏反应、履行过错和自我验证来改善程序
2. 一个技术代码库,用来存储和检索杂乱行为
3. 一个主动教程,能够最大化智能体的探究
首要,Voyager会测验运用一个流行的Minecraft JavaScript API(Mineflayer)来编写一个实现特定方针的程序。
虽然程序在第一次测验时就出错了,但是游戏环境反应和JavaScript履行过错(假如有的话)会协助GPT-4改善程序。
左:环境反应。GPT-4意识到在制造木棒之前还需要2块木板。
右:履行过错。GPT-4意识到它应该制造一把木斧,而不是一把「想念木」斧,由于Minecraft中并没有「想念木」斧。
经过供给智能体当时的状况和使命,GPT-4会告知程序是否完成了使命。
此外,假如使命失败了,GPT-4还会提出批评,建议怎么完成使命。
自我验证
其次,Voyager经过在向量数据库中存储成功的程序,逐渐树立一个技术库。每个程序能够经过其文档字符串的嵌入来检索。
杂乱的技术是经过组合简单的技术来合成的,这会使Voyager的才能随着时间的推移迅速增长,并缓解灾难性忘记。
上:添加技术。每个技术都由其描述的嵌入索引,能够在将来的相似状况中检索。
下:检索技术。当面对主动课程提出的新使命时,会进行查询并辨认前5个相关技术。
第三,主动课程会依据智能体当时的技术水平缓国际状况,提出合适的探究使命。
例如,假如它发现自己在沙漠而非森林中,就学习收集沙子和仙人掌,而不是铁。
具体来说,课程是由GPT-4依据「发现尽可能多样化的东西」这个方针生成的。
主动课程
实验
接下来,让咱们看一些实验!
团队将Voyager与其他依据LLM的智能体技术进行了系统性的比较,比方ReAct、Reflexion,以及在Minecraft中广受欢迎的AutoGPT。
在160次提示迭代中,Voyager发现了63个共同的物品,比之前的SOTA多出3.3倍。
寻求别致的主动课程自然会驱使Voyager进行广泛的游览。即使没有清晰的指示,Voyager也会遍历更长的间隔(2.3倍),拜访更多的地形。
相比之下,之前的办法就显得十分「懒散」了,经常会在一小片区域里兜圈子。
地图探究率
那么,经过终身学习后的「练习模型」——技术库,体现怎么呢?
团队清空了物品/护甲,生成了一个新的国际,并用从未见过的使命对智能体进行了测验。
能够看到,Voyager处理使命的速度显着比其他办法更快。
值得注意的是,从终身学习中构建的技术库不只进步了Voyager的功能,也提升了AutoGPT的功能。
这表明,技术库作为一种通用东西,能够有用地作为一个即插即用的办法来进步功能。
零样本泛化
上图中的数字是三次试验中提示迭代的平均值。迭代次数越少,办法越有用。能够看到,Voyager处理了一切的使命,而AutoGPT经过50次提示迭代都无法处理。
此外,与其他办法相比,Voyager在解锁木东西上快了15.3倍,石东西快8.5倍,铁东西快6.4倍。而且具有技术库的Voyager是仅有解锁钻石东西的。
技术树把握状况(木东西 → 石东西 → 铁东西 → 钻石东西)
现在,Voyager只支撑文本,但在未来能够经过视觉感知进行增强。
在团队进行的一个初步研讨中,人类能够像一个图画标示模型相同,向智能体供给反应。
从而让Voyager能够构建杂乱的3D结构,比方地狱门和房子。
结果表明,Voyager的功能优于一切替代方案。此外,GPT-4在代码生成方面也显着优于GPT-3.5。
融化实验
结论
Voyager是第一个由LLM驱动、能够终身学习的具身智能体。它能够运用GPT-4不停地探究国际,开发越来越杂乱的技术,并始终能在没有人工干预的状况下进行新的发现。
在发现新物品、解锁Minecraft技术树、穿越多样化地形,以及将其学习到的技术库应用于新生成国际中的未知使命方面,Voyager体现出了优胜的功能。
关于通用智能体的开发来说,无需调整模型参数的Voyager是能够作为一个起点的。
参考资料:
voyager.minedojo.org/