近年来,深度学习已经成为了NLP范畴的标配技能,2022年10月15日“小红书REDtech青年技能沙龙”活动中,咱们十分侥幸地邀请到了上海复旦大学核算机学院邱锡鹏教授,邱教授分享了《言语模型即服务与黑箱优化》报告,具体讲解了言语模型越来越大的背景下关于新运用办法的探究。

邱锡鹏:国家优青取得者,于复旦大学取得理学学士和博士学位。首要从事自然言语处理、深度学习等方向的研讨,发表CCFA/B类论文70余篇,取得ACL2017杰出论文奖(CCFA类)、CCL2019最佳论文奖、《中国科学:技能科学》2021年度高影响力论文奖,有5篇论文当选PaperDigest发布的IJCAI/ACL/EMNLP的最有影响力论文(被引用数进入前当届会议的20名)。出版开源专著《神经网络与深度学习》,Github重视数1.5万,豆瓣评分9.4分。掌管开发了开源结构FudanNLP和FastNLP,已被国内外数百家单位运用。2015年当选首届中国科协青年人才托举工程项目,2018年获钱伟长中文信息处理科学技能奖青年创新奖一等奖,2020获第四届上海高校青年教师教学竞赛优等奖,2021年获首届上海市核算机学会教学成果奖一等奖(第一完结人)等。培育学生屡次取得一级学会优博、微软学者、百度奖学金等。

以下内容依据邱教授现场报告整理

1. 背景

在预练习年代,咱们大部分的研讨作业分两个大类别:上游怎样做模型的预练习,下流怎样做精调,也便是把预练习模型迁移到下流使命。在上游有许多的公司主导如OpenAI、Google等,他们把大模型做得十分大,显示出许多很优秀的才能如Few-shot小样本的才能。在参数的数量级上升之后,小样本的学习才能就变得十分强,这便是咱们仍是在不停地让这个模型变得越来越大的原因。

可是跟着模型越来越大, 这种预练习加精调的办法变得不行行了,一方面上游制造大模型的公司不愿意把它开源,另一方面下流的运用厂商也不太可能把它下载下来,即便下载也很难有资源运转。

所以咱们要追求一种新的运用办法。比如以GPT为代表提出来的in-contextlearning(在上下文中学习),给预练习模型输入一些提示或许比如,让原模型依据这些比如在下流使命上进行适配,它的作用也十分好,以GPT-3为例的一些模型体现得十分惊艳。in-contextlearning成为咱们在这个范畴上研讨的重点。

2. Language-Model-as-a-Service 言语模型即服务

假如模型是布置在服务端的,适当于把言语模型做成一个服务,咱们就提出了 “言语模型即服务” 的概念。言语模型即服务事实上已经是一个很成熟的运用了,有许多的运用也都是根据言语模型即服务的才能。像GPT-3开发的一些下流的服务——咱们能够用GPT-3生成一个网页按钮,用它把自然言语转化成数学公式等等。

在言语模型即服务中咱们会存在两个应战:

服务的原模型是什么?

怎样把它适配到下流使命傍边?

3. UnitedFoundationModel

一致的预练习模型的目标是用一个模型来适配一切的自然言语处理使命,比如咱们预练习一个模型,让它既能够支撑了解使命,也能够支撑生成使命。

CPT:一种非对称的预练习Transformer

在传统的预练习模型上有几类代表,如以BERT为例的了解模型,GPT为代表的生成模型,还有BART。那么能不能把它们汇总到一同呢?咱们提出了一个新的模型CPT,它的中心思维便是将了解使命和生成使命合并到一同,比如咱们把BERT和BART合并到一同的时分,发现都需求一个一起的编码器,共享编码器后咱们得到如下图这种形状。

它相同是Transformer的Encoder-Decoder架构,但其左面能够用来做了解,右边能够做生成,在许多中文预练习使命上都能够到达现在最好的作用,一起非对称的Transformer的Encoder-Decoder架构,也使其生成功率提升了2倍以上。

复旦邱锡鹏教授:语言模型即服务的五类应用手段,你了解多少

Seq2SeqMaskedLanguageModeling

现在,自然言语处理傍边,能够支撑十分多使命类型的言语模型办法便是序列到序列模型,一个典型的代表便是T5,它能够把许多的自然言语处理使命都转化成为序列到序列的办法。假如能够这样转化,咱们的后台去布置一个这样序列到序列的根底模型,就能够用来支撑下流使命了。

复旦邱锡鹏教授:语言模型即服务的五类应用手段,你了解多少

Text-to-TextTransferTransformer(T5)

可是用T5处理自然言语处理使命时仍然对错常有应战性的,在更多的运用傍边,一些使命一般来讲是比较难以转化的。比如ABSA(在自然言语处理方面级的情感剖析)。这儿给出一句话“Drinkarealwayswellmade”,其中有一个点评目标,还有一个点评词以及他的情感倾向,这些都需求从这个语句中抽取出来。

事实上,ABSA使命又分为许多的子使命,不同的子使命用于处理不同的状况。比如说像a1这个使命便是只抽取方面词,还有o1这个使命只抽取点评词,不同使命的办法都不相同,所以到现在为止没有一个模型能够一起支撑在ABSA使命里边一切的子使命。

复旦邱锡鹏教授:语言模型即服务的五类应用手段,你了解多少

SevenABSAsubtasks

那么能不能用生成序列到序列模型的办法来一起处理7个子使命呢,事实上这个模型也十分简略,咱们能够把ABSA使命做一个序列生成使命,把它变成一个抽取目标的序列下标的生成,比如说咱们要抽取aspectterm“winelist”,咱们只需求输出它的开始方位1,还有它的结束方位2,再抽“service”,也是开始方位和结束方位,即“12,12”,以序列的办法把它的方位生成出来即可。

复旦邱锡鹏教授:语言模型即服务的五类应用手段,你了解多少

ABSAasSequenceGeneration

关于三元组的使命,就生成“winelist”1,2,再生成对应的Opinion“interesting”,

再生成它的情感倾向,这样咱们就把ABSA用一致的序列到序列的办法从头办法化,此刻咱们就能够用一个模型来支撑一切的7个子使命,它一致结构就变得十分简略,用一个BART的Encoder-Decoder就能够去向理了。这个作业不光办法简略,用一个技能模型就做了一切的子使命,一起也得益于这些预练习模型,作用也比其他分开完结的办法更好。

复旦邱锡鹏教授:语言模型即服务的五类应用手段,你了解多少

OverallArchitecture

相同咱们把这个主意也用到NER(命名实体识别)上,NER也是在自然言语处理中十分重要的一类使命。在NER里有十分的多的子使命:

有接连的NER:NER中的词是接连呈现的;

还有是嵌入的NER:在一个实体里边嵌套别的一个实体;

以及不接连的NER:一个实体可能是不接连的在正文呈现。

传统解决办法是选用不同的算法来完结,比如接连的NER就会用序列标示,不接连的NER根本上运用搬运办法。

复旦邱锡鹏教授:语言模型即服务的五类应用手段,你了解多少

ThreekindsofNERtasks

序列标示很难处理不接连的NER,所以这些办法之间不通用,咱们也能够用序列到序列的办法将3种NER的子使命做一个一致,相同相似于ABSA中的做法。

复旦邱锡鹏教授:语言模型即服务的五类应用手段,你了解多少

咱们把NER生成出来,比如要抽取“musclepain”,咱们就生成它对应的方位,然后再生成它对应的实体的类型即可。相同也能够用根底的BARTEncoder-Decoder,这样它就能够十分方便地去做各种不同类型的NER。这种办法作用也十分好,现在在干流的NER数据集上都能到达十分好的作用。

4. EfficientTuningAlgorithm

有了根底的一致预练习模型之后,咱们怎样更加有用地把它迁移到下流的各种不同使命上呢?这儿就分了许多种办法:

-Tuning(标签调适)

关于一个预练习模型,输入一个语句时,咱们先去提取它的Feature构成FeatureSpace(特征空间),再把FeatureSpace做参数调理,向LabelSpace(标签空间)去做映射,这便是传统的Finetuning。由于特征空间和参数空间十分大,这个作业一般需求大量的数据去做调理。

咱们能不能想别的一个办法呢?是否能够把FeatureSpace固定,而去调LabelSpace,把标签空间向特征空间靠拢?咱们一般用“y”来表明标签,所以把这个办法叫做“-Tuning”。

这个办法来自于咱们更早之前的一个作业,这个作业能够将文本使命转化成文本匹配使命。传统的文本分配是给你一个语句输入它的标签,此刻咱们其实并没有太去运用标签的信息,比如说这个标签咱们能够用一句话来描述的话,咱们就能够把分类使命变成一个文本匹配使命,看这个语句和这个标签有没有进行彼此的匹配。经过这种泛式的转变,咱们就能够十分轻松的去提升文本分类的功能。

“-Tuning”也是相似这种考虑。咱们将标签或许是标签的表述作为输入,就构造如图架构,左面是预练习模型,其参数是固定不动的,只用来提取Feature,右边输入一些标签,也便是“”,一起还有一个Tasktoken,Tasktoken用来最后去指出最终的标签是哪一个,它也经过一个Transformer的架构,相似于一个Encoder-Decoder的架构,只不过左端是不做调整的,咱们只需求调右端的参数。右端的规模一般比较小,所以它的功率对错常高的。

复旦邱锡鹏教授:语言模型即服务的五类应用手段,你了解多少

在架构上,“-Tuning”区别于“Fine-Tuning”,“Adapter-Tuning”,“Prompt-Tuning”,不需求核算PTM自身的梯度,所以其优化功率十分高。

在一些通用的言语了解数据集上,“-Tuning”都能比像“P-Tuning”,“Fix-Tuning”作用要好。当然和“Fine-tuning”还有必定的距离,有很大的改进空间。

复旦邱锡鹏教授:语言模型即服务的五类应用手段,你了解多少

“-Tuning”最大的长处便是练习功率特别高。它不需求核算预练习模型的梯度,所以首先在内存上会有很大的节约,节约的这些内存咱们完全能够增大Bech之类的东西,进一步提升“-Tuning”的功率。

Black-BoxTuning

除了“-Tuning”之外,能不能仍然调一些参数,可是相同不需求核算梯度,是否能到达这样的作用?

这便是Black-BoxTuning(黑箱优化),黑箱优化的整体思维是这样的,咱们把一个预练习模型布置在服务器端,把它当成一个黑盒子,它只供给前项的核算,咱们还能够经过增加一些Adapt、Prompt去调理,把它适配到不同的使命上。

一般像Prompttuning的办法,需求经过大模型核算梯度,再经过梯度调理Prompt参数,关于这些大模型布置在服务器上如GBT,是不行行的。咱们期望把预练习模型当作一个黑箱,去寻觅一个Prompt,使得它在下流使命上的作用最好。一旦咱们不能取得这个梯度,其实就把它转变成一个黑箱优化问题,或许是无梯度优化问题。在前期作业或优化作业中咱们找到了一些有用的无梯度优化办法,可是它仅在低维空间比较有用,在高维空间由于搜索空间十分大,现在来讲仍对错常低效。

特别关于大模型来讲,即便是Prompt,它的参数也十分大。比如说50个Prompttoken,每个有1000维的话便是5万个参数,5万个参数空间对错常大的。怎样把它在低维空间有用的无梯度优化用到高维空间呢,这是一个应战。

所幸的是在高维空间中不是一切的参数都等同重要,比如神经网络中也有许多参数都是冗余的,有些参数并不是那么重要,因此在这么多的参数空间中,是不是能够发现这些Prompt或许是大模型的本征维度,它的本真维度可能在十分低维度的空间。咱们在低维的本真维度空间去优化这个Prompt,用无梯度的办法到达很好的作用。

根本结构如下图,首先咱们把Prompt映射到低维空间,在低维空间中用无梯度优化的办法优化,完结之后再把它映射回去,这样能够经过无梯度优化的办法去优化大模型,而且把它适配到下流使命上。

复旦邱锡鹏教授:语言模型即服务的五类应用手段,你了解多少

Black-BoxTuning

在比如Few-shot这些使命上,Black-BoxTuning根本能够追平根据梯度的办法,可是有一个缺点,咱们的Prompt最好Pre-train一下。经过Black-box咱们验证了能够用无梯度的办法进行大规模预练习模型的调参,可是仍然存在缺点,它的Prompt调起来仍然十分困难,而且需求预练习。

咱们能不能把技能进一步改进呢?咱们就提出了第二个版别BBTv2,在这个版别傍边咱们做了一些改进,咱们不需求做Prompt的预练习,一起改进随机投影的办法,而且选用Deepprompt,每一层都加一些Prompt。事实证明这些战略是有用的。

复旦邱锡鹏教授:语言模型即服务的五类应用手段,你了解多少

咱们能够看到,经过这样一些改进之后,BBTv2在比如一万个可调参数的状况下,它到达了现在最好的作用,比根据听的办法作用还要好,而且不需求Pre-train。也便是说关于这些大模型来讲,咱们用无梯度办法就能够打败根据梯度的办法,所以这也是这个作业的含义地点,也给将来一些大模型的运用供给了别的一个场景,把大模型布置在服务器端,只用它的Forword就行了,咱们调参不需求梯度,只需求前项的核算。

复旦邱锡鹏教授:语言模型即服务的五类应用手段,你了解多少

Comparabletofullmodeltuningbutmerelytuning~10kparameters

5. Summary

“言语模型即服务”是本文的一个首要概念,言语模型即服务的运用手法,大约分成五类:

Textprompt:

能够人工规划一些根据文本的Prompt,可是变成了特征工程问题,需求工程师不断去试,适当消耗精力。

In-contextlearing:

现在来讲In-contextlearing在GPT实验上对错常有用的,但在其他模型上还需求必定的验证,可是它对错常有前景的方向,其中的问题也十分值得咱们去研讨。

Datageneration:

咱们用大模型去生成一些数据,再用这些数据练习一个更小的模型,这也是一种办法。

Black-boxoptimization:

即上文所述的Black-boxtuning。

Feature-based-learning:

咱们把预练习模型的输出作为一种Feature,输入给一些特定的模型。“-Tuning”便是这种运用。

6. “Q&A”环节

Q:超大预练习模型言语模型Large的模型在工业运用上的可行性是怎样的,像刚刚提到的最近比较火的Diffusion模型,或许说其他一些复杂的多模态、预练习模型?

邱锡鹏: 据我所知,这些大模型在工业界的运用十分多,比如说在一些终端使命上,特点是一旦有了根底运用,下流都不是问题。现在的首要问题是本钱,怎样高效的适配以及经过一些模型紧缩或许其他办法来提高功率。

Q:生成式实体或许情感抽取运用到工业场景首要会面对什么应战?

邱锡鹏: 这个应战仍是在于,咱们这儿说的这些办法,其实仍是需求大量的练习数据的,在真正的工业场景傍边,许多时分规范数据不是那么多,这样的话生成模型不像其他的办法,或许说传统的练习办法作用好。可是我仍是深信跟着预练习模型的发展,会有显着的提升。