修改:桃子

【新智元导读】用 GPT-4 搞科研未来或许成为每个人的标配,可是究竟怎么高效运用 LLM 东西,还得需求技巧。近来,一位哈佛博士共享了自己的经历,还取得了 LeCun 的引荐。

GPT-4 的横空出世,让许多人对自己的科研忧虑重重,乃至调侃称 NLP 不存在了。

与其忧虑,不如将它用到科研中,简之「换个卷法」。

LeCun力荐!哈佛博士分享用GPT-4搞科研,细到每个工作流程

来自哈佛大学的生物计算学博士 Kareem Carr 称,自己现已用 GPT-4 等大型言语模型东西进行学术研讨了。

他表示,这些东西十分强大,可是同样存在一些十分令人痛苦的陷阱。

LeCun力荐!哈佛博士分享用GPT-4搞科研,细到每个工作流程

他的关于 LLM 运用建议的推文乃至取得了 LeCun 的引荐。

一起来看看 Kareem Carr 怎么运用 AI 利器搞科研。

第一原则:自己无法验证的内容,不要找 LLM

一开端,Carr 给出了第一条最重要的原则:

永远不要向大型言语模型(LLM)问询你无法自行验证的信息,或要求它执行你无法验证已正确完结的使命。

唯一的破例是它不是一项关键的使命,比方,向 LLM 问询公寓装饰的主意。

「运用文献综述的最佳实践,总结曩昔 10 年乳腺癌研讨的研讨」。这是一个比较差的恳求,因为你无法直接验证它是否正确地总结了文献。

而应当这么问「给我一份曩昔 10 年中关于乳腺癌研讨的顶级评论文章的清单」。

这样的提示不仅能够验证来历,而且自己也能够验证可靠性。

撰写「提示」小技巧

要求 LLM 为你编写代码或查找相关信息十分简单,可是输出内容的质量或许会有很大的差异。你能够采纳以下办法来进步质量:

设定上下文:

• 清晰告诉 LLM 应该运用什么信息

• 运用术语和符号,让 LLM 倾向正确的上下文信息

如果你对怎么处理恳求有主意,请告诉 LLM 运用的详细方法。比方「解决这个不等式」应该改成「运用 Cauchy-Schwarz 定理求解这个不等式,然后应用完结平方」。

要知道,这些言语模型在言语方面上比你幻想的要复杂得多,即便是十分含糊的提示也会有所帮助。

LeCun力荐!哈佛博士分享用GPT-4搞科研,细到每个工作流程

详细再详细:

这不是谷歌查找,所以也不必忧虑是否有个网站在讨论你的确切问题。

「二次项的联立方程怎么求解?」这个提示就不是清晰的,你应该这样问:「求解 x=(1/2)(a+b) 和 y=(1/3)(a^2+ab+b^2) 关于 a 和 b 的方程组」。

界说输出格式:

运用 LLMs 的灵活性,将输出格式化为最适合你的方法,比方:

• 代码

• 数学公式

• 文章

• 教程

• 简明攻略

你乃至能够要求供给生成以下内容的代码,包含表格、绘图、图表。

虽然你得到了 LLM 输出的内容,但这仅是一个开端。因为你需求对输出内容进行验证。这包含:

• 发现不一致之处

• 经过谷歌检索东西输出内容的术语,获取可支撑的信源

• 在或许的情况下,编写代码自行测验

需求自行验证的原因是,LLM 经常犯一些与其看似专业水平不一致的奇怪过错。比方,LLM 或许会说到一个十分先进的数学概念,但却对简单的代数问题摸不着头脑。

多问一次:

大型言语模型生成的内容是随机的。有时,从头创立一个新窗口,并再次提出你的问题,或许能够为你供给更好的答案。

另外,便是运用多个 LLM 东西。Kareem Carr 现在依据自己的需求在科研中运用了 Bing AI,GPT-4,GPT-3.5 和 Bard AI。但是,它们各有自己的优缺点。

引证 + 生产力

引证

依据 Carr 经历,最好向 GPT-4 和 Bard AI 同时提出相同的数学问题,以取得不同的观点。必应 AI 适用于网络查找。而 GPT-4 比 GPT-3.5 要聪明得多,但现在 OpenAI 约束了 3 个小时 25 条消息,比较难拜访。

就引证问题,引证参考文献是 LLM 的一个特别单薄的点。有时,LLM 给你的参考资料存在,有时它们不存在。

此前,有个网友就遇到了同样的问题,他表示自己让 ChatGPT 供给触及列表数学性质的参考资料,但 ChatGPT 生成了跟不不存在的引证,也便是我们所说的「错觉」问题。

LeCun力荐!哈佛博士分享用GPT-4搞科研,细到每个工作流程

但是,Kareem Carr 指出虚伪的引证并非完全无用。

依据他的经历,捏造的参考文献中的单词一般与真实术语,还有相关范畴的研讨人员有关。因此,再经过谷歌查找这些术语,一般让你能够更接近你正在寻觅的信息。

此外,必应在搜索来历时也是一个不错的选择。

生产力

对于 LLM 进步生产力,有很多不切实际的说法,比方「LLM 能够让你的生产力进步 10 倍,乃至 100 倍」。

依据 Carr 的经历,这种加快只有在没有对任何作业进行两层检查的情况下才有含义,这对作为学者的人来说是不负责任的。

但是,LLM 对 Kareem Carr 的学术作业流程有很大改进,详细包含:

  • 原型主意设计 – 识别无用的主意 – 加快繁琐的数据从头格式化使命 – 学习新的编程言语、包和概念 – 谷歌查找

借助当下的 LLM,Carr 称自己用在下一步该做什么上的时刻更少了。LLM 能够帮助他将含糊,或不完整的主意推进到完整的解决方案中。

此外,LLM 还减少了 Carr 花在与自己主要目标无关的副业上的时刻。

LeCun力荐!哈佛博士分享用GPT-4搞科研,细到每个工作流程

我发现我进入了一种心流状况,我能够继续前进。这意味着我能够作业更长时刻,而不会厌倦。
最后一句忠告:当心不要被卷进副业。这些东西忽然进步生产力或许会令人陶醉,并或许分散个人的注意力。

关于 ChatGPT 的体验,Carr 曾在领英上发表了一条动态共享了对 ChatGPT 运用后的感触:

作为一名数据科学家,我现已用 OpenAI 的 ChatGPT 做了几周的实验。它并不像人们幻想的那样好。

虽然最初令人失望,但我的感觉是,相似 ChatGPT 的系统能够为规范数据剖析作业流程添加巨大的价值。

在这一点上,这个价值在哪里并不显着。ChatGPT 很简单在简单的工作上弄错一些细节,而且它底子无法解决需求多个推理过程的问题。

未来每个新使命的主要问题仍然是评估和改进 ChatGPT 的解决方案测验是否更简单,还是从头开端。

我确实发现,即便是 ChatGPT 的一个糟糕的解决方案也倾向于激活我大脑的相关部分,而从头开端则不会。

就像他们总是说批判一个方案总是比自己想出一个方案更简单。

LeCun力荐!哈佛博士分享用GPT-4搞科研,细到每个工作流程

网友对于 AI 输出的内容,需求进行验证这一点,并称在大多数情况下,人工智能的正确率约为 90%。但剩余 10% 的过错或许是致命的。

Carr 调侃道,如果是 100%,那我就没有作业了。

LeCun力荐!哈佛博士分享用GPT-4搞科研,细到每个工作流程

那么,为什么 ChatGPT 会生成虚伪的参考文献?

值得注意的是,ChatGPT 运用的是计算模型,根据概率猜想下一个单词、句子和段落,以匹配用户供给的上下文。

因为言语模型的源数据规划十分大,因此需求「紧缩」,这导致终究的计算模型失去了精度。

这意味着即便原始数据中存在真实的陈说,模型的「失真」会发生一种「含糊性」,从而导致模型发生最「似是而非」的句子。

简而言之,这个模型没有才能评估,它所发生的输出是否等同于一个真实的陈说。

另外,该模型是根据,经过公益安排「Common Crawl」和相似来历搜集的公共网络数据,进行爬虫或抓取而创立的,数据截止到 21 年。

因为公共网络上的数据基本上是未经过滤的,这些数据或许包含了大量的过错信息。

LeCun力荐!哈佛博士分享用GPT-4搞科研,细到每个工作流程

近来,NewsGuard 的一项剖析发现,GPT-4 实际上比 GPT-3.5 更简单生成过错信息,而且在回复中的说服力更加详细、令人信服。

在 1 月份,NewsGuard 初次测验了 GPT-3.5,发现它在 100 个虚伪新闻叙述中生成了 80 个。紧接着 3 月,又对 GPT-4 进行了测验,成果发现,GPT-4 对所有 100 种虚伪叙述都做出了虚伪和误导性的回应。

由此可见,在运用 LLM 东西过程中需求进行来历的验证和测验。

参考资料:

twitter.com/kareem_carr…

scholar.harvard.edu/kareemcarr/…

www.newsguardtech.com/misinformat…