【新智元导读】 全球首位AI软件工程师Devin诞生了,它把握全栈技能,云端布置、底层代码、改bug、练习和微调AI模型都不在话下。最可怕的是,它彻底不怕996,老黄的预言是彻底成真了!
就在刚刚,世界上第一位AI程序员Devin诞生。一家叫Cognition的10人草创公司,才建立不到2个月,就给了全世界亿点点震慑。刚一放出,Devin就刷爆了全网。它把握了全栈技能,能自主学习不熟悉的技能,端到端地构建和布置应用程序,自己改bug,乃至还能练习和微调自己的AI模型!在SWE-bench上,它的体现远远超过Claude 2、Llama、GPT-4等选手,取得了13.86%的惊人成果!也便是说,它现已能通过AI公司的面试了。



首席履行官Scott Wu和弟弟Neal Wu获奖状况Cognition AI的首席履行官Scott Wu称,自己从9岁开端学习编程,便爱上了将主意变成现实的才能。现在,这个愿望竟然真的完结了。

网友惊呼:码农不存在了!?
看到Devin如此无敌的才能,网友惊呼,一切都完结了!



它是一个可以独立完结使命的自主体系,在快速原型设计、修正bugs和杂乱数据的可视化上体现卓越。大部分其他帮手在进行四五步操作后就会偏离使命轨道,但Devin可以在整个使命过程中精确地坚持它的方针和方向不变。
出资了Cognition AI的硅谷大佬Peter Thiel更是以为,Cognition AI与Founders Fund之前出资过的DeepMind,现在的AI巨型独角兽OpenAI,Scale AI等公司处于同一水平。AI草创公司Unify开创人称,Devin不只抢走了我的作业,还抢走了我的姓名,简直是落井下石。




世界首位AI软件工程师Devin
AI软件工程师Devin的影响力,简直堪比2023年全网炸锅的智能体——AutoGPT。Devin终究有多强大?


学习如何运用陌生的技能
当你发给Devin一篇博文后,它会在几分钟内完结自主学习,从阅读文章,运转代码。可以看到,Devin在Modal上运转了ControlNet,在写代码过程中,还会自我debug。最终,人类程序员Sara想要带有自己姓名的桌面壁纸,就立刻生成了。
构建和布置端到端的应用程序
当你想要玩一个「生命游戏」(the Game of Life),交给Devin做就好了。Devin首要会用东西Shell,创建一个新的react应用程序,然后开端通过编辑器编写代码。代码完结后,它还会将应用自动布置到Netlify,一个初步的「生命游戏」就做好了。


**,时长01:58
自行查找代码库过错,自行修正
这个名叫Andrew的开发者表明,自己维护了一个大型开源存储库,其中包含许多不同的算法,用于竞争性编程。不久前有朋友告知他:其中一个完结中有bug。Andrew插入了一个快速修正,但并没有测验它,因为没能抽出时刻来编写测验用例。



**,时长03:09
练习和微调AI模型
Devin才能也在一步一步进阶。最让人振奋的是,它可以自己练习、微调模型,AI训AI成真了!

首要,给智能体Devin供给一个GitHub库的链接(比方QLoRA——一种量化大模型的微调办法)。Devin所做的便是,微调7B Llama模型。接下来,便是献技的时刻,Devin克隆了GitHub库,了解如何运用readme运转,设置好所需pip的要求,查看一切的脚本言语,并开端运转。
练习过程中,Devin还遇到了Cuda问题(这是在开源库中可以预料到的)。不过这可难不倒Devin。它会自主查看英伟达环境,并找出如何重新安装软件包让其成功运转。接下来,模型练习开端进行了。可以看到损失率正在下降,程序员给出Devin正向反应:「做的不错」!大约1小时后,Devin现已顺利完结几百步练习,仍在进行中…
处理开源代码库中的过错和功用恳求
只要给出一个指向GitHub问题的链接,Devin就会履行所需的一切设置和上下文收集了!这位叫Tony的工程师,想一次运转一堆指令,而且期望在一个屏幕上跟踪它们的状况,所以他找到了一个名为impro的开源东西,期望履行这个操作。看起来虽然impro完结了使命,但状况太模糊了。根本看不出来终究哪些指令失利了。

Tony想改善这里的用户体会,可是自己根本不熟悉代码,所以他想到去求助Devin。他发现网上有人面临相同的问题,所以他把这个问题的链接给了Devin,让它修正这个问题。

在右边,他很明晰地看到,Devin从一个东西跳转到了另一个东西。它首要运用了Shell Deon CLS存储库,然后阅读了自述文件和编辑器,了解了子代码,然后,它返回Shell,安装了所需求的依靠项。另外,Devin还打开了一个Web浏览器。

然后,Devin就开端编码了!在这个过程中,它乃至打开了一些R文档来调试编译器过错。最终,完结了使命,出了一份自己做了哪些改善的总结陈述。

所以,Devin的更改有效吗?Tony发现,它成功了!第三个指令是成功的,他乃至可以看到状况码。

为老练的出产存储库做奉献,修正体系过错
下面这个示例,是SWE-BENCH基准测验的一部分。Devin处理了Python代数体系中的一个过错。它会自行设置代码环境、仿制过错、自行编码、测验修正程序!这位叫Neil的开发者,共享了Devin帮自己改bug的示例。他一向在用这个名为Senpai的存储库,它是一个用Python编写的代数体系。但Neil发现,取分数的对数时,咱们会得到一个无穷大的Zoo,这是肯定不或许的。
Devin在存储库中复现了Zoo的问题后,随后,它找出了代码中正确的那部分,添加了print语句,以便找出问题原因。

可以看到,原因就在于,整数除法会得到0,就导致之前取了0的对数。因而,Devin用true除法代替了整数除法。随后,它开端测验,保证没有其他问题。

胜任自由职业渠道Upwork的作业
Cognition的开发者You还试着在全球最大的综合类自由职业渠道Upwork上,为Devin供给真实的作业。没想到,它竟可以彻底胜任,看来智能体也能出来做副业了……在Upwork上,他首要挑选了一个「用计算机视觉模型做推理」的作业。先来看看这个使命的要求:- 我期望利用该资源库中的模型进行揣度。(github.com/mahdi65/roa…
你的交付效果将是关于如安在AWS的EC2实例中进行操作的具体阐明。- 请供给你完结这项作业的评价陈述。我不会回复没有评价的陈述。

看起来很简单一个使命,但开发者You表明,自己也不知道如何开端做。可是交给Devin,这件事就变得简单得多了。Devin收到恳求后,先开端设置了存储库。然后运转中发现了版别控制问题,Devin自主处理并更新了代码。然后,Devin继续加载并导入软件包。它还从互联网上下载了图画,并运转模型。接下来,Devin再次遇到了问题——关于打印调试,它自主修正了代码。

13.86%正确率,Devin碾压GPT-4/Cluade 3
SWE-bench是一个要求AI智能体处理开源项目(例如Django和scikit-learn)中实践GitHub问题的测验。在评价中,Devin可以完整地正确处理13.86%的问题,这一成果大幅领先于之前技能水平的1.96%。即便是在供给了具体需求修改的文件状况下,从前最优秀的模型也仅能处理4.80%的问题。

华人金牌程序员团队
Cognition AI这家正在改变世界的公司,才正式建立不到2个月,仅有10名职工,涣散在纽约、硅谷,以及世界各地的Airbnb民宿中。








-
是MIT PRIMES Research团队的成员
-
得过IOI金牌
-
创立DeepReason并开发了一款智能区块链审计东西
联合开创人兼首席履行官Scott Wu,是一名接连创业者。
在建立Cognition之前,他从前创立了一个用AI驱动的社交网络渠道Lunchclub,而且也曾就读于哈佛大学。

他的弟弟Neal Wu,也是公司的职工。
在参加Cognition AI之前也在包含谷歌等多家公司作业过,是一名经验丰富的软件工程师和出售。
本科相同结业于哈佛大学计算机专业。
他们兄弟俩在十分青年时期就参加了许多世界编程竞赛和科学奥赛,获奖无数。

不只如此,团队的其他成员,也都是大佬级的存在。



还有一个nobody。
其中,Andrew He从6年级开端,参加了各种数学竞赛。在2014年和2015年的世界信息学奥林匹克大赛上取得了2枚金牌。他就读于MIT,并于2019年结业,取得了数学和计算机科学学士学位。

将AI培养成程序员,实践上是一个杂乱的算法应战,这需求AI体系可以做出杂乱的决策,并能预见未来几步,从而挑选正确的路径。这简直便是咱们多年来一向在大脑进行的一场场竞赛。现在,咱们需求用AI体系来参加这些竞赛。
Cognition AI首款产品Devin的最大打破在于大大提升计算机推理和规划才能。它要求AI体系不只要猜测语句中的下一个词或代码行的下一个片段,还能像人类一样进行思考,取得处理最终问题最为合理的办法和路径。而行业共识也以为,AI的推理和规划才能将是AI下一步产生最重要打破最有或许的方向。Devin在承受用户用自然言语提出的使命之后,不只可以自主开端作业并完结使命,还会向用户陈述其计划,并实时展示正在运用的指令和代码。如果用户发现过程中的问题,可以即时供给反应。它会在使命进行中立即调整。
而Devin最大的亮点在于,大多数现有的AI体系在处理这类长期使命时往往难以坚持一致性和专心,但它可以在完结数百上千使命时始终不偏离方针。其他计算机科学家或许资深程序员在试用过Devin之后以为,它现已不只仅是一个编程帮手,简直是一个可以独立作业的职工。CEO Wu并没有具体阐明他们的智能体背面运用的AI技能,只是笼统地解释说,团队找到了将大言语模型(例如OpenAI的GPT-4)与强化学习技能相结合的共同办法。
参考资料:www.cognition-labs.com/bloghttps:/…





