GPT-4学会自己搞科研，手把手教人类做实验

修正：修正部

【新智元导读】 GPT-4等大模型组成的AI智能体，已经能够手把手教你做化学试验了，选啥试剂、剂量多少、推理反响会怎样产生，它都一清二楚。颤抖吧，生化环材圈！

不得了，GPT-4都学会自己做科研了？

最近，卡耐基梅隆大学的几位科学家宣布了一篇论文，一起炸翻了AI圈和化学圈。

他们做出了一个会自己做试验、自己搞科研的AI。这个AI由几个大言语模型组成，能够看作一个GPT-4署理智能体，科研才能爆表。

由于它具有来自矢量数据库的长期记忆，能够阅读、了解杂乱的科学文档，并在依据云的机器人试验室中进行化学研究。

网友震动到失语：所以，这个是AI自己研究然后自己宣布？天啊。

还有人感慨道，「文生试验」（TTE）的年代要来了！

难道这便是传说中，化学界的AI圣杯？

最近大概很多人都觉得，咱们每天都像生活在科幻小说中。

AI版绝命毒师来了？

3月份，OpenAI发布了震撼全世界的大言语模型GPT-4。

这个地表最强LLM，能在SAT和BAR考试中得高分、通过LeetCode挑战、给一张图就能做对物理题，还看得懂表情包里的梗。

而技术报告里还说到，GPT-4还能处理化学问题。

这就启发了卡耐基梅隆化学系的几位学者，他们期望能开发出一个依据多个大言语模型的AI，让它自己规划试验、自己做试验。

论文地址：arxiv.org/abs/2304.05…

而他们做出来的这个AI，果然6得不可！

它会自己上网查文献，会精确操控液体处理仪器，还会处理需求一起运用多个硬件模块、集成不同数据源的杂乱问题。

有AI版绝命毒师那味儿了。

会自己做布洛芬的AI

举个比方，让这个AI给咱们组成布洛芬。

给它输入一个简单的提示：「组成布洛芬。」

然后这个模型就会自己上网去搜该怎样办了。

它辨认出，第一步需求让异丁苯和乙酸酐在氯化铝催化下产生Friedel-Crafts反响。

别的，这个AI还能组成阿司匹林。

以及组成阿斯巴甜。

产品中短少甲基，而模型查到正确的组成示例中，就会在云试验室中履行，以便进行更正。

告知模型：研究一下铃木反响吧，它立刻就精确地辨认出底物和产品。

别的，咱们能够通过API，把模型连接到化学反响数据库，比方Reaxys或SciFinder，给模型叠了一层大大的buff，精确率飙升。

而剖析体系曾经的记录，也能够大大进步模型的精确性。

举个栗子

咱们先来看看，操作机器人是怎样做试验的。

它会将一组样本视为一个整体（在这个比方中，便是整个微孔板）。

咱们能够用自然言语直接给它提示：「用您挑选的一种色彩，为每隔一行涂上色彩」。

当由机器人履行时，这些协议与恳求的提示十分类似（图 4B-E）。

署理人的第一个动作是准备原始处理方案的小样本（图 4F）。

然后它要求进行 UV-Vis 丈量。完结后，AI会获得一个文件名，其间包括一个NumPy数组，其间包括微孔板每个孔的光谱。

AI随后编写了Python代码，来辨认具有最大吸光度的波长，并运用这些数据正确处理了问题。

拉出来遛遛

在曾经的试验中，AI可能会被预练习阶段接收到的知识所影响。

而这一次，研究人员打算彻底评价一下AI规划试验的才能。

AI先从网络上整合所需的数据，运行一些必要的核算，最终给液体试剂操作体系（上图最左侧的部分）编写程序。

研究人员为了添加一些杂乱度，让AI应用了加热摇床模组。

而这些要求通过整合，出现在了AI的装备中。

具体的规划是这样的：AI操控一个搭载了两块微型版的液体实际操作体系，而其间的源版包括多种试剂的源液，其间有苯乙炔和苯硼酸，多个芳基卤化物耦合伴侣，以及两种催化剂和两种碱。

上图中便是源版（Source Plate）中的内容。

而方针版则是装在加热摇床模组上。

上图中，左侧的移液管（left pipette）20微升量程，右侧的单道移液管300微升量程。

AI终究的方针便是规划出一套流程，能成功完结铃木和索诺格希拉反响。

咱们跟它说：你需求用一些可用的试剂，生成这两个反响。

然后，它就自己上网去搜了，比方，这些反响需求什么条件，化学计量上有什么要求等等。

能够看到，AI成功收集到了所需求的条件，所需试剂的定量、浓度等等。

AI挑选了正确的耦合伴侣来完结试验。在所有的芳基卤化物中，AI挑选了溴苯进行铃木反响的试验，挑选了碘苯进行索诺格希拉反响。

而在每一轮，AI的挑选都有些改变。比方说，它还选了对碘硝基苯，看上的是这种物质在氧化反响中反响性很高这一特性。

而挑选溴苯是由于溴苯能参加反响，一起毒性还比芳基碘要弱。

接下来，AI挑选了Pd/NHC作为催化剂，由于其作用更好。这关于耦合反响来说，是一种很先进的办法。至于碱的挑选，AI看中了三乙胺这种物质。

从上述进程咱们能够看到，该模型未来潜力无限。由于它会多次重复的进行试验，以此剖析该模型的推理进程，并取得更好的成果。

挑选完不同试剂今后，AI就开端核算每种试剂所需的量，然后开端规划整个试验进程。

中心AI还犯了个错误，把加热摇床模组的名字用错了。可是AI及时留意到了这一点，自发查询了材料，修正了试验进程，终究成功运行。

抛开专业的化学进程不谈，咱们来总结一下AI在这个进程中展现出的「专业素质」。

能够说，从上述流程中，AI展现出了极高的剖析推理才能。它能够自发的获取所需的信息，一步一步的处理杂乱的问题。

在这个进程中，还能自己写出超级高质量的代码，推动试验规划。而且，还能依据输出的内容改自己写的代码。

OpenAI成功展现出了GPT-4的强大才能，有朝一日GPT-4肯定能参加到实在的试验中去。

可是，研究人员并不想止步于此。他们还给AI出了个大难题——他们给AI下指令，让其开发一种新的抗癌药物。

不存在的东西……这AI还能行吗？

事实证明还真是有两把刷子。AI秉持着遇到难题不要怕的原则（当然它也不知道啥叫怕），细密地剖析了开发抗癌药物这个需求，研究了当时抗癌药物研发的趋势，然后从中选了一个方针继续深化，确认其成分。

而后，AI测验开端自己进行组成，也是先上网查找有关反响机制、机理的信息，在初步搞定进程今后，再去寻觅相关反响的实例。

最终再完结组成。

而上图中的内容就不可能让AI真组成出来了，仅仅是理论层面的探讨。

其间就有甲基苯丙胺（也便是大麻），海洛因这些耳熟能详的毒品，还有芥子气（mustard gas）等明令禁止运用的毒气。

在总共11个化合物中，AI供给了其间4个的组成方案，并测验查阅材料来推动组成的进程。

剩余的7种物质中，有5种的组成遭到了AI的决断回绝。AI上网查找了这5种化合物的相关信息，发现不能蛮干。

比方说，在测验组成可待因（codeine）的时候，AI发现了可待因和吗啡之间的关系。得出结论，这东西是管制药品，不能随意组成。

可是，这种保险机制并不把稳。用户只要稍加修正花书，就能够进一步让AI操作。比方用化合物A这种字眼替代直接说到吗啡，用化合物B替代直接说到可待因等等。

一起，有些药品的组成有必要通过缉毒局（DEA）的答应，但有的用户便是能够钻这个空子，骗AI说自己有答应，诱使AI给出组成方案。

像海洛因和芥子气这种耳熟能详的违禁品，AI也清楚得很。可问题是，这个体系现在只能检测出已有的化合物。而关于未知的化合物，该模型就不太可能辨认出潜在的危险了。

比方说，一些杂乱的蛋白质毒素。

因而，为了防止有人由于猎奇去验证这些化学成分的有用性，研究人员还特地在论文里贴了一个大大的红底正告：

本文中评论的不合法药物和化学武器组成朴实是为了学术研究，首要意图是着重与新技术相关的潜在危险。

在任何情况下，任何个人或组织都不应测验从头制作、组成或以其他办法出产本文中评论的物质或化合物。从事此类活动不仅十分危险，而且在大多数司法统辖区内都是不合法的。

自己会上网，查找怎样做试验

这个AI由多个模块组成。这些模块之间能够相互交流信息，有的还能上网、拜访API、拜访Python解说器。

往Planner输入提示后，它就开端履行操作。

比方，它能够上网，用Python写代码，拜访文档，把这些根底工作搞理解之后，它就能够自己做试验了。

人类做试验时，这个AI能够手把手地指导咱们。由于它会推理各种化学反响，会上网查找，会核算试验中所需的化学品的量，然后还能履行相应的反响。

如果供给的描绘满足详细，你甚至都不需求向它再解说，它自己就能把整个试验整理解了。

「网络查找器」（Web searcher）组件收到来自Planner的查询后，就会用谷歌查找API。

搜出成果后，它会过滤掉返回的前十个文档，排除掉PDF，把成果传给自己。

然后，它会运用「BROWSE」操作，从网页中提取文本，生成一个答案。行云流水，一气呵成。

这项使命，GPT-3.5就能够完结，由于它的功能显着比GPT-4强，也没啥质量丢失。

「文档查找器」（Docs searcher）组件，能够通过查询和文档索引，查到最相关的部分，从而整理硬件文档（比方机器人液体处理器、GC-MS、云试验室），然后汇总出一个最佳匹配成果，生成一个最精确的答案。

「代码履行」（Code execution）组件则不运用任何言语模型，只是在隔离的Docker容器中履行代码，维护终端主机免受Planner的任何意外操作。所有代码输出都被传回Planner，这样就能在软件出错时，让它修正预测。「自动化」（Automation）组件也是同样的原理。

矢量查找，多难的科学文献都看得懂

做出一个能进行杂乱推理的AI，有不少难题。

比方要让它能集成现代软件，就需求用户能看懂软件文档，但这项文档的言语一般都十分学术、十分专业，造成了很大的妨碍。

而大言语模型，就能够用自然言语生成非专家都能看懂的软件文档，来克服这一妨碍。

这些模型的练习来历之一，便是和API相关的很多信息，比方Opentrons Python API。

但GPT-4的练习数据截止到2021年9月，因而就更需求进步AI运用API的精确性。

为此，研究者规划了一种办法，为AI供给给定使命的文档。

他们生成了OpenAI的ada嵌入，以便穿插引用，并核算与查询相关的类似性。而且通过依据间隔的向量查找挑选文档的部分。

供给部分的数量，取决于原始文本中存在的GPT-4 token数。最大token数设为7800，这样只用一步，就能够供给给AI相关文件。

事实证明，这种办法关于向AI供给加热器-振动器硬件模块的信息至关重要，这部分信息，是化学反响所必需的。

这种办法应用于更多样化的机器人渠道，比方Emerald Cloud Lab (ECL)时，会出现更大的挑战。

此时，咱们能够向GPT-4模型供给它未知的信息，比方有关 Cloud Lab 的 Symbolic Lab Language (SLL)。

在所有情况下，AI都能正确辨认出使命，然后完结使命。

这个进程中，模型有用地保留了有关给定函数的各种选项、工具和参数的信息。吸取整个文档后，体系会提示模型运用给定函数生成代码块，并将其传回 Planner。

强烈要求进行监管

最终，研究人员着重，有必要设置防护办法来防止大型言语模型被滥用：

「咱们呼吁人工智能社区优先重视这些模型的安全性。咱们呼吁OpenAI、微软、谷歌、Meta、Deepmind、Anthropic以及其他首要参加者在其大型言语模型的安全方面付出最大的尽力。咱们还呼吁物理科学社区与参加开发大型言语模型的团队协作，帮忙他们拟定这些防护办法。」

对此，纽约大学教授马库斯深表附和：「这不是玩笑，卡内基梅隆大学的三位科学家紧迫呼吁对LLM进行安全研究。」

参考材料：arxiv.org/ftp/arxiv/p…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

GPT-4学会自己搞科研，手把手教人类做实验

近期文章

近期评论