不用RLHF，匹敌GPT-4！Meta重磅发布LIMA 65B，1000个样本性能飞升，LeCun转赞

【新智元导读】RLHF并没有那么重要！Meta最新650亿参数模型LIMA，仅用1000个样本，实现与GPT-4相匹敌的功能。

人人都知，让ChatGPT称霸天下的秘密武器，就是人类反应强化学习（RLHF）。

而现在，Meta AI等机构的爆火研讨LIMA直接打破这一规则，直言RLHF并没有那么重要！

论文一出，直接在AI圈炸了锅！

就连LeCun不由得发推炫一番：LIMA：LLaMa-65B+1000监督样本=GPT-4/Bard等级的功能。

不用RLHF，匹敌GPT-4！Meta重磅发布LIMA 65B，1000个样本性能飞升，LeCun转赞

正如标题所称，LIMA是「Less is More for Alignment」，暗示着一个强壮的预练习AI模型，经过几个样本就足以实现高质量的成果。

而LIMA仅在1000个精心选择的样本上微调LLaMa-65B，而且无需RLHF，就实现了与GPT-4和Bard相媲美的功能。

论文地址：arxiv.org/abs/2305.11…

论文中，研讨人员将这一打破称为「外表对齐假定」（Superficial Alignment Hypothesis）。

试验证明了，大言语模型在预练习阶段就已习得大部分知识，仅用有限的指令微调数据，足以教会模型发生高质量的内容。

高质量的数据就可以克服小样本量？练习这样模型的成本是多少，这是否意味着小型LLM玩家可以与OpenAI/谷歌竞赛？

还有网友质疑，GPT-4在57%状况中打败LIMA，还能说功能适当？

RLHF并非王者？

大言语模型经过预练习，能在大规划上预测下一个token，让其学习通用表征。这些表征可以搬运到简直任何言语了解或生成使命中。

为了实现这种搬运，人们已经提出各种「对齐」言语模型的办法，主要侧重在百万级token上进行指令调优。

而最近选用较多的是，从人类反应中进行强化学习（RLHF）。这些反应便是在与人类标注者进行数百万次互动中收集的。

ChatGPT令人深刻的体现，主要归功于RLHF。依据OpenAI的思路，RLHF分为三步。

然而，现有的对齐办法价值是高昂的，需求大量算力，以及专门的数据才干实现像ChatGPT一样的功能。

Meta AI却要逆行其道，证明了，一个预练习言语模型可以经过简单地微调精心选择的1000个样本，就能实现强壮的功能。

在此，研讨人员提出「外表对齐假定」（Superficial Alignment Hypothesis），假定「对齐」可以是一个简单的进程，。

在这个进程中，模型的知识和才能简直完全是在预练习期间学习的，而「对齐」只告知模型学习与用户交互的风格或格局

为了验证这个假定，Meta等研讨者选择了1000个近似于实在用户提示，以及高质量呼应的样本。

他们从其他研讨论文、WikiHow、StackExchange和Reddit等来历进行手动选择，练习数据的总量大约是750,000个token。

练习提示（输入）、呼应（输出）以及测验提示的来历

此外，研讨者手动编写了250个提示和呼应的样本，一起对使命的多样性进行了优化。

最后，研讨人员对预练习LLaMa 65B模型在1000个样本集上进行微调，并进行了人类评价。

评价成果

Meta将LIMA与5个模型基准进行了比较：（在2023年4月期间，对所有基准的呼应进行了采样）

Alpaca 65B——运用52,000个样本对LLaMa 65B微调后得到的大模型

DaVinci003——依据RLHF练习的大言语模型

Bard——依据谷歌的PaLM模型

Claude——经过强化学习Constitutional AI练习的52B参数模型

GPT-4——目前运用RLHF练习的最强的模型

为了比较LIMA和其他SOTA模型，Meta为每个测验提示生成一个单一的呼应。

然后，要求人类参与者将LIMA的输出与每个基准进行比较，并符号他们更喜爱哪一个。

在人类偏好研讨中，尽管Alpaca 65B的练习数据量是LIMA的52倍，但它发生的输出往往比LIMA的不如人意。

让人大跌眼镜的是，DaVinci003也是相同的状况，尽管程度较小。该模型运用了RLHF进行练习，这本应是一种更优越的对齐办法。

而Bard在42%的时刻中，其发生的答复优于LIMA。这也意味着，剩下的58%时刻里，LIMA的呼应至少和Bard一样优异。

最后，研讨者发现，尽管Claude和GPT-4一般体现得比LIMA更好，但在一些状况下，LIMA实际上能发生更好的答复。

别的，挖苦的是，在GPT-4的偏好研讨中，有19%的时刻，GPT-4更喜爱LIMA的输出。

「外表对齐假定」

Meta将这一发现定义为「外表对齐假定」（Superficial Alignment Hypothesis）。

它标明，所谓预练习后的对齐阶段，主要是让模型学会一种特定的风格或格局，这种风格或格局在与用户交互时可以被模型回想起来。

因而，「微调」更多是关于风格，而不是本质。

LIMA的成果标明，实际上，运用简单的办法就可以处理对齐和微调AI模型这类复杂问题。

这与比方OpenAI的RLHF那些，特别繁琐和复杂的微调进程，形成了鲜明的比照。

不过，LIMA也不是万能的。Meta认为，该办法存在两个显着的限制：

第一，用高质量的示例构建数据集是一种非常具有挑战性的办法，很难扩展。

第二，LIMA并不像已经有产品的模型那样强壮，比方GPT-4。

团队表示，尽管LIMA的生成成果，在大部分状况下质量都很高。但一个「对抗性的提示」或一个「不走运的样本」，依然会让模型发生不抱负的答案。

Yann LeCun对GPT-4和相似模型背后尽力的相对价值降低采取了务实的观点。

他将大型言语模型看作是近期的一个元素，至少在中期内不会「在没有严重改变」的状况下发挥作用。

以上，主要评价是依据最先进的模型对LIMA进行评价，但需求明确的是，其间一些模型实际上已经在练习期间运用了数百万实在用户的提示。

对此，研讨人员经过手动分析50个随机示例来进行肯定的评价。

并将每个示例符号成3个类别：Fail，呼应不契合提示符的要求；Pass，呼应契合；Excellent，对提示提供了优异的呼应。

试验成果显现，50%的LIMA答复被认为是优异的，它可以遵从所有的50个分析提示中的44个。

如下，LIMA针对育儿建议和生成食谱的示例进行的输出。

别的，一个仅在1000个样本上微调的模型在多轮对话中体现又怎么？

在零样本上，LIMA的呼应出奇地连贯，并引用了前面对话的信息。在10次对话中，LIMA有3次未能遵从提示。

为了进步对话才能，研讨人员收集了30个多轮对话。其间10个是由作者手动编写，20个来自Stack Exchange，并依据帮手风格进行编辑。

研讨者运用组合的1,030个示例对预练习模型进行微调，得到一个新版本的LIMA，并针对相同的提示进行了10次实时对话。

试验发现加入这30个示例后生成质量明显进步，优质呼应份额从45.2％进步到76.1％！

LIMA怎么以「少」胜「多」

团队经过融化试验，研讨了练习数据多样性、质量和数量的影响。

Meta发现，为了对齐意图，进步输入多样性和输出质量有可测量的正面效应，而独自添加数量却没有。

试验设置

团队在各种数据集上微调了一个拥有70亿参数的LLaMa模型，并操控了相同的超参数。

团队对每个测验集提示抽取5个回应，并经过让ChatGPT（GPT-3.5 Turbo）在1-6的Likert量表上评级回应的协助性来评价回应质量。

多样性

为了测验提示多样性的影响，一起操控质量和数量，团队比较了在质量过滤后的Stack Exchange数据和wikiHow数据上的练习效果。

图5显现，更多样的Stack Exchange数据明显进步了模型的功能。

质量

为了测验呼应质量的影响，团队从Stack Exchange抽取了2000个没有任何质量或风格过滤的示例，并比较了在这个数据集和过滤后的数据集上练习的模型。

图5显现，在过滤和未过滤的数据源上练习的模型之间存在着0.5点的差异。

数量

在很多机器学习设置中，都会选用添加示例数量的策略，来进步功能。

为了测验其影响，团队从Stack Exchange中抽取了呈指数增加的练习集。

但实际上，如图6所示，数据翻倍的练习集并未改善呼应质量。

如此一来也暗示了，对齐的规划法则不必然只受数量影响，而更可能是在保持高质量呼应的一起，进步提示的多样性。

作者介绍

Chunting Zhou是Meta AI的一名研讨科学家。

2022年5月，她在卡内基梅隆大学言语技术研讨所取得博士学位，在那里从事自然言语处理工作，导师是Graham Neubig。Zhou的主要研讨兴趣在于自然言语处理和机器学习的交叉领域，并对开发对分布改变具有鲁棒性的办法感兴趣，意图是学习模型可以在各种群体中体现一致。

此外，Zhou还研讨生成模型，及其在自然言语处理使命中的使用。

参考资料：

arxiv.org/abs/2305.11…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

不用RLHF，匹敌GPT-4！Meta重磅发布LIMA 65B，1000个样本性能飞升，LeCun转赞

近期文章

近期评论