在微软、百度、阿里、腾讯、小米纷繁宣布入局之后,ChatGPT 再次被送上科技头条。

关于ChatGPT,我们请小红书技术人和NLP专家聊聊原理和潜力

图源:Financial Times

互联网公司们的争相表态,让咱们好像看到了 ChatGPT 落地使用的曙光。比较去年底,关于 ChatGPT 的评论,也从技能自身愈加聚集到商业化前景以及对互联网职业使用生态的改变上。

作为具有2亿月活用户的生活社区,小红书具有图文短视频兼具的社区内容生态,包含上亿级别的图片、长短文本/视频笔记、用户查询和评论数据,供给了跨过多个模态的海量数据集,为自然言语处理和AI辅佐内容生成,供给了十分丰富的场景。

咱们也不由好奇:ChatGPT+小红书能发生什么化学反应?ChatGPT 未来的使用场景中小红书能有技能占据一席之地吗?这个科技界和资本市场一起看好的新技能,究竟能在互联网范畴搅动多大的水花?

其实,在去年年底,咱们的大众号推文【REDtech 来了】第六期直播中,咱们就曾约请NLP 专家、UCSB 助理教授李磊与小红书技能部负责人凯奇、以及小红书多媒体智能算法负责人宇尘,专门聊过 ChatGPT 的技能难点和使用前景。在有限的时间里,三位嘉宾评论了 ChatGPT 的才能短板、练习办法,以及带给未来研讨与使用的启示和影响。

短短一个半小时的直播显得意犹未尽,所以咱们重新整理了一份直播中的精彩对答,并且又去问了一些小红书技能团队负责人,弥补了一些咱们关怀的议题。关于小红书+ChatGPT 会诞生哪些新机会也藏在这份问答实录中哦。

Q:在和 ChatGPT 的互动中,你印象最深的一个的答复是什么?

凯奇(小红书技能部负责人) :我从前问过它一个关于足球规则的问题,假如足球运动员用手把球打进门是不是得分,它的答复是算,但又弥补阐明这是不合规则的。ChatGPT 的答复有时分正确,有时分也会自相矛盾。

李磊(加州大学圣芭芭拉分校助理教授) :首要 ChatGPT 给出的回应和之前的 GPT-3 很不相同,它给的回应都很长且大部分都是环绕咱们给的主题来生成的。并且,关于不会或许不太有把握的问题,它一般会答复“我不知道”、“我没有这个信息”,而不是随便胡说八道,这一点关于用户也比较友爱。

我也问它世界杯的问题,比方谁会赢,它答复我“没有这个信息”,“可是假如你想知道往届信息可以继续问询”。

宇尘(小红书多媒体智能算法负责人) :有一个ChatGPT 扮演 Linux Terminal 的比方:告知 ChatGPT 大约的机器配置,然后在此根底上让它履行一些指令,成果发现,ChatGPT 可以记住很长的操作前史,前后逻辑关系十分一致(比方你往一个文件里边写入几行字符,之后让它显现这个文件里边究竟被写入了哪些字符,它都能显现出来)。

关于ChatGPT,我们请小红书技术人和NLP专家聊聊原理和潜力

关于ChatGPT,我们请小红书技术人和NLP专家聊聊原理和潜力

DeepMind 研讨者 Jonas Degrave 让 ChatGPT 扮演 Linux Terminal 的比方。

这让咱们不由怀疑 ChatGPT 是不是自己在后台开了一个 terminal 欺骗用户?于是咱们进行了一些测验,看能不能判别它是开了一个terminal仍是真的在了解这儿边的指令。

咱们给它写了一个复杂度特别高的指令,设定了两重 for 循环,每一个 for 循环都有 10 亿次,假如 ChatGPT 真的开了一个 terminal,它就会卡一段时间。成果出人意料:ChatGPT 很快就跳过了这个过程,显现出了这个指令之后的下一个成果,让人感觉它的确大约了解了整个 demo 的逻辑,它是有必定的“考虑”才能的。 包含你的语法有一点小过错,它也可以识别你实在想要什么,并告知你正确答案,这个让我印象十分深刻。

Q:最近 ChatGPT 浪潮十分高,关于 ChatGPT 你最重视的问题是什么呢?

特图(小红书信息流广告模型工程师) :非技能方面我最关怀的是方针,AI 的才能是双刃剑,换脸技能就现已证明过一次了,NLP 感觉更难监管,这次 ChatGPT 的方针风向其实对未来 AI 蛮要害的。技能层面我还挺感兴趣便是 ChatGPT 间隔经过图灵测验还差哪些了。

Q:ChatGPT 现在有哪些短板 ?这些问题是大言语模型仍是练习技能模型的问题,或许经过什么方法克服?

宇尘:ChatGPT 的确有十分强的改变和改进,当然仍是会遇到许多问题,比方偶尔仍是会“一本正经地胡说八道”。它关于自己练习过程和回忆中的“事实”很坚持,即使你告知它这样不对,它仍是会坚持自己的答案。有一个比方是问 ChatGPT 某个数字 x 是否为质数,它一直以为这是质数,你用交互的方法告知它 x 可以拆解为 a 和 b 相乘,再次问询时它依然会以为 x 是质数,所以它的内部逻辑仍是有必定的问题。

别的一个维度是怎样将 ChatGPT 实践使用到更多场景里。大模型的练习和使用本钱都很高,小规模的数据很难有好的体现,当它的练习样本、模型参数量、核算量上升到一个大模型预支网上,才能有比较冷艳的才能,所以或许离运用比较远。但它让咱们看到了一些新的打破和或许性,某种程度上给了咱们解决困难到达下一阶段的动力,这是很重要的。

李磊:ChatGPT 在一些特定使命(比方翻译)上或许并没有到达 SOTA。尽管 ChatGPT 的 API 还没有放出来,咱们无法得知它在一些 benchmark 上的才能。但我的学生在测验 GPT-3 的过程中发现,尽管 GPT-3 可以出色地完成翻译使命,但它比现在单独练习的双语模型仍是要差一些(BLEU 分数差 5 到 10 个点),因而我估测 ChatGPT 在某些 benchmark 上并不见得会到达 SOTA,甚至或许和 SOTA 还有一些间隔。

Q:关于ChatGPT的强壮才能,有两种假定,一种以为ChatGPT 这种很强的才能自身便是内置在大模型傍边的,只是咱们之前没有恰当地释放它;另一种以为大模型的内置才能其实没有那么强,需求咱们凭借人类力量对它做出一些调整。你们怎样看?

宇尘:我自己比较倾向以为 ChatGPT 大部分的才能现已内嵌在大模型里边。练习和微调大模型所需的数据量存在着几个数量级的差异,在 GPT-3 及其之后的模型所用到的“预练习+提示(Prompting)”范式中,这种数据量的差异就更显着了。一方面我觉得信息本来就在大模型里边,另一方面,这个大模型自身是不是还潜藏着更多奇特的才能,现在还没有被发挥出来。

开个玩笑,假如和人的进化对应——之前咱们经常说现在的深度学习模型关于数据的利用效率很低,作为人来说,人用很少的典范就可以有效学会许多常识,可是关于模型来说比较难,但考虑到人类生命从诞生的那一天起不断进化到现在,经历了十分多的基因延续,像是 “pre-training”的过程。某个人出生之后,在这个实在环境里边结出小样本,做 “fine-tune”。假定有类似这样一个逻辑,有一个很强的大模型,不同的人根据不同的使用在自己的场景里边拿很小的样本 fine-tune 它,或许只是经过一些 Prompting 的规划让它有一些更好的体现。假定这条路是通的,我觉得 ChatGPT 未来的使用空间会十分广,这是我的主意。

李磊:我也以为 ChatGPT 大部分的才能现已内嵌在大模型里边。在ChatGPT之前,GPT-3它的论文现已展现了很强的才能,叫做 “in-context learning”,或许叫 “few shot demostration”。这个 “few shot” 和以往 “few shot” 的才能不太相同,GPT-3 的 “few shot” 是在 test time 给你几个示例,不需去更新模型参数。GPT-3 展现的才能阐明这个模型自身有这个才能,可是不必定可以激起出来,咱们需求把少数标示样本放在输入文本的上下文中即可诱导模型输出答案。这让咱们感到十分欢喜,ChatGPT 比 GPT-3 更进一步,它可以依据整个对话的前史记录给出答复,这更让人惊喜。

关于ChatGPT,我们请小红书技术人和NLP专家聊聊原理和潜力

传统 fine-tune 办法与 GPT-3 的 in-context learning 办法对比。

Q:ChatGPT 的强壮还依赖于 RLHF(人类反应强化学习)的练习办法,你怎样看RLHF这个练习办法以及关于大模型自身的才能?

李磊:在之前做机器翻译研讨的时分,咱们一般会用 BLEU score(一种快速、廉价且言语独立的自动机器翻译评价办法,与人类判别有很强的相关性)来辅导模型。BLEU score 不是 human feedback,但咱们可以经过许多的核算很简单地拿到这些样例,别的,BLEU score 和 human feedback 之间有比较强的相关性,咱们大致可以以为 BLEU score 便是 human feedback。在其时的情况下,由于模型比较弱,咱们用一个度量规范去辅导一个翻译模型,可以到达5—10%的可观提高,可是在 transformer 出来之后,特别是模型、数据越来越大之后,咱们就发现额外的度量规范反而并不见得可以带来很大的提高。

因而咱们从中得到的经历是,凭借反应来练习 GPT-3 这种超大模型理论上不会得到太大提高,可是,ChatGPT 的冷艳效果却推翻了这一经历。

Q: LLM大言语模型) 的才能鸿沟在哪里,它能做到或许现已做到了抽象考虑、逻辑考虑吗?

秋哥(商业部技能根底 NLP 建造负责人) :我个人浅薄的认知,大言语模型的才能鸿沟仍是在现存数据包含的常识规模吧,类似于回忆力天才能做到的上限,并且这个鸿沟也不太或许实在到达,毕竟算力和练习数据也不是无限的。

实在的抽象考虑其实也是不能做到的,比较表面的推理还行,那些看上去很深邃或许专业的答复其实大部分是包含在练习数据里边的,或许见过类似的。实在意义上的逻辑考虑单纯靠大言语模型就愈加不或许了, 举个最简略的比方,比方加减法大言语模型就解决得很不好,强如 ChatGPT 也只是能处理(记住)100以内或许10以内的简略运算,复杂一点的运算基本上便是靠猜了。

特图:我感觉这个问题的要害或许在于怎样了解“考虑”,拥护“中文屋”试验的人会觉得这不是考虑,拥护“图灵测验”的人会觉得这是考虑。

Q:你以为 ChatGPT 能否代替 Google、百度等传统查找引擎呢?

李磊:ChatGPT 技能的确十分冷艳,效果或许也十分好,可是咱们能否根据技能做出一个广阔用户接受的产品,并且商业上可以成功,这是带着问号的。这样一个新技能必定有很大的潜力,但它能否代替谷歌或许搜集引擎很难说。特别 ChatGPT 在一些挨近问答的问题上,的确比查找引擎处理得更好一点,可是用户在查找的时分,有多少 query 是这一类问题呢,这类问题是咱们最重要的需求吗?不必定。

假如根据 ChatGPT 做下一代产品,咱们要看 ChatGPT 的才能长处在哪里,环绕长处来做而不必定是瞄准现有的产品,代替现有产品未必是 ChatGPT 拿手的地方。

宇尘:传统厂商做查找引擎现已十分多年了,假如几十年今后呈现新的查找形状,这是有或许的,但短期内想要代替现有查找引擎不太现实。按照我的了解, ChatGPT 还有许多问题至少没有在当前版本里展现出来,比方与用户个性化相关的功能,比方它不能实现互联网资源的实时访问,比方还会发生一些过错的信息等。特别是它假如发生误导性信息,将对整个生态形成很大的影响。我记住 ChatGPT 刚出来的时分,许多人拿着 ChatGPT 的答复到各种社交论坛上答复别人提的问题,形成了一些小的紊乱。

咱们根据 ChatGPT 里有意思的技能点,去继续改进现在查找链路里(特别是和 NLP 了解相关)的各环节,让它们做得更好,这个十分有期望。

别的一个维度是,现在 ChatGPT 的才能发挥在文本上,未来是否可以比较好地泛化,复制到多模态的场景中。查找引擎许多时分也是多模态的形式,比方小红书的查找会有许多图文和视频的成果,期望未来 ChatGPT 可以在不同的场景都能获得发展。

Q:ChatGPT 获得的重要打破对整个研讨范畴会有什么重要的启示?对未来的研讨有什么影响?

李磊:关于校园来说要做这方面研讨其实仍是挺困难的,但它有两个点是咱们可以更多去探究的。

一个是我刚才说到的 in-context learning 的才能,以往咱们不论是做 NLP 模型仍是 CV 模型,都并没有去看究竟可以经过什么样的方法把这个模型的潜力挖掘出来。比方咱们练习一个机器翻译模型,或许便是中英机器翻译,不会再去想假如给这个模型一些提示,它是不是可以生成一个更好的翻译。可是 GPT-3、ChatGPT 给了咱们新的思路,比方咱们是不是可以把以往一切的模型都改成这种 in-context learning、few shot demostration,加一些 prompt 提示,不论这个提示是文本、图片仍是其他,在输入提示的情况下,咱们是否可以把预练习模型的才能彻底发挥出来,这是十分值得研讨的。

第二个值得研讨的便是 human feedback,低本钱、高效地获取许多的 feedback 信号很难的。假如每一个“input”、“output”都让人去写,那咱们不或许拿到许多成果。为什么谷歌可以不断进步,有一个原因便是它获取 human feedback 十分简单,用户输入一个 query 后得到一个成果,它可以看你有没有点进这个成果中,这就给了它一个 feedback,所以其实用户在使用过程中协助谷歌不断提高了它的体系效果。

咱们回到 ChatGPT 和 GPT-3 ,现在的形式假如咱们想得到足够多的 hunman feedback 其实仍是很困难的。由于用户给了一个 “input”,体系给出 “output” 后用户还没有很好地给出 feedback,必定要去问用户两个答复你以为哪一个好哪一个坏,当然 ChatGPT 经过这种方法获取了一些 feedback,比彻底人工去写价值要小,可是依然很难像谷歌那样获取到一切用户,整个 web 规模的 feedback。未来咱们要想想怎样低本钱地获取用户 feedback 信号,使得这种信号可以协助咱们做各种模型。这是两个我觉得重要的点。

关于ChatGPT,我们请小红书技术人和NLP专家聊聊原理和潜力

宇尘:咱们团队首要在做智能创造,最近除了 ChatGPT,跨模态的内容生成也是十分热的一个方向。咱们写一段文字,就能生成很冷艳的图片甚至小视频,你也可以把图片经过一些文字的描述快速迁移到另一种风格,我觉得这个方向在未来创造里边或许也会有许多十分有意思的使用。但这个方向仍是存在许多问题,它的可控性和人的想象有时分偏差较大,时不时会呈现一些 bad case。全体上,跟着 ChatGPT 的发展和一些论文的介绍,我觉得假如咱们在跨模态生成的文本建模里做到十分极致,或许关于文本和视觉内容相关性的提高会有相当大的协助,这是一个启示,后面会重点研讨一下。

ChatGPT 直观展现了 NLP 大模型比较小模型在复杂多轮对话、不同 query 的泛化性、思想链 (Chain of Thought) 等各个场景的大幅提高,且相关才能现在在小模型上是不具有。

NLP 大模型的这些相关才能或许也可以在跨模态生成中进行测验和验证,现在跨模态模型在模型规模上比较 GPT-3/ChatGPT 还有明显的距离,且在跨模态场景中也有许多作业展现了跟着 NLP 分支表达才能的提高,会对视觉生成成果的精密程度有很大协助。现在生成的成果在挑选的情况下往往能看到很不错的冷艳成果,但生成可控性还有很大空间,这部分或许可以参阅 ChatGPT 的许多思路来进行测验,比方更大的模型,根据优质数据的微调,强化学习等等。

还有便是刚刚李磊老师说到的 hunman feedback,现在跨模态生成中基本是一次性给用户创造结束,关于用户发布的内容、点赞的信息等,咱们是不是也可以人工标示一些数据,看看他们会更喜欢哪些内容,他们的 feedback 是什么,也把强化学习的思想引进进来,或许对这个链路也会有一些协助。这儿边许多技能看起来有一点共通,但现在不确定它从文本范畴迁移到跨模态范畴是否会有同样的效果,这一点有待验证。在跨模态生成范畴的模型标准规模和自然言语的大模型仍是有一些距离的,可是我觉得值得一试。

Q: ChatGPT 的才能优势在小型化之后是否还坚持,以及怎样看 LLM 未来的小型化空间?

李磊:以往的经历,的确可以把大模型小型化,可以在特定使命上做小型化。一般你可以把这个模型降一到两个数量级,是可以在特定使命上做得还不错的,可是要说彻底坚持原有才能,并且它的模型巨细还要小一到两个数量级,这个现在没有看到十分的确的证据,可是我觉得这是未来重要的研讨方向。

Q: ChatGPT 的才能未来在 AIGC 范畴可以有哪些使用场景和发挥空间?ChatGPT 有或许在小红书内部用到吗?

宇尘:直接使用 ChatGPT 在小红书的场景或许十分难,特别它现在没有一个公开的 API 可以调用,并且假如要上传许多信息,在小红书的场景里边也没有办法直接使用。就像刚刚咱们评论的,它这儿边涉及到的技能主意,许多可以在咱们的作业里边,在各个不同的子使命里边去学习。

假如泛指这种类似的对话模型,自然言语模型或许 AIGC 的才能,场景仍是许多的。比方智能客服,比方刚刚李老师说的机器翻译的进一步提高,包含在查找里边关于 query 了解维度才能的提高。

ChatGPT 并不只是只有 ChatGPT,其实它是一整个系列的作业,这个系列的作业在 NLP 的各种不同的子使命都有十分明显的提高,泛泛地讲,简直一切 NLP 相关的使命都是会有关的,至于哪一这个模型可以轻量化到被大规模的工程化使用,咱们可以拭目以待。

我自己关于AIGC一直十分感兴趣,相关的 AI 才能尽管不是在一切场景都体现特别好,但至少在一些特定的场景下有那么一点点灵性的,特别你看和 AI 作画相关的,便是把一种模态转化成别的一种模态的场景,以绘画来讲,它的才能或许没有那么完美,可是超过了99%人的绘画才能。

除了文本和视觉之外,包含语音、音乐,任何两个模态的迁移和转化都是这个职业研讨的重要方向。小红书全体承载了各种不同模态的内容,这些模态假如可以在创造模态大幅度下降,让用户记录和表达自己生活的时分,可以愈加低本钱、愈加便捷,这是一个十分有意思的方向。

此外,ChatGPT 所展现的大规模 NLP 预练习模型,以及在少数特定语料上经过监督学习和强化学习微调后的模型展现出了十分强的才能,再结合上多模态的才能可以在十分多的场景下进行使用测验。比方电商等场景的智能客服,比方查找下对用户 query、对用户笔记更精确的了解,比方智能创造场景下对用户资料进行智能配乐、案牍生成、跨模态的转化和生成创造。在各个场景中使用的深度和广度也会跟着模型巨细的压缩、模型精度的继续提高并且继续增强和扩展。

Q: 假如把ChatGPT的才能接入小红书,关于小红书的多模态内容生态会带来什么新的打破?ChatGPT+小红书=?

秋哥:打破不好说,但危险或许得先防备起来。由于 ChatGPT 写软文的才能是十分强的,有许多做跨境电商的人现已在用 ChatGPT 去生成商品卖点、投放词等去搞 SEO 了。假如等多模态 ChatGPT 出来了,说不定冲击会更大。所以我觉得反 ChatGPT 的才能反而是小红书最紧急的。

尽管现在许多内容为主的公司都在蹭ChatGPT的热度,看上去很相关,但在我看来,咱们小红书或许需求先避免 ChatGPT +小红书= ChatGPT 这种局势呈现,再去探究怎样让 ChatGPT +小红书=小红书 plus。

Q: ChatGPT的才能或许会对安全技能带来什么样的影响?

本安(使用安全工程师) :就我个人使用的感受来说,现在ChatGPT在非开放性的安全危险分析上仍是有不错的体现的,比方发送一段或许有缝隙的代码让它去审计,或许一个条件充沛的环境下评价危险。

但它也有弊端,ChatGPT 作为一个言语模型,具有学习才能,但好像无法很好地判别接收到常识的准确性,有时分会回来过错的信息,所以假如安全人员没有良好的技能根底,很简单被过错的答复误导。比方危险评价的层面,或许解决方案这些答案开放性比较高的问题,过错率相对会高一些,代码审计这种过错率相对低,但依然有过错的时分。ChatGPT可以作为一个功能强壮的参阅常识库,但需求安全人员具有判别答复准确性的根底才能。