编辑:LRS

【新智元导读】言语模型动物园加入新成员 Koala,更契合实在用户需求!

自从 Meta 开源 LLaMA 之后,学术界内各品种 ChatGPT 模型如雨后春笋般开始发布。

先是斯坦福提出了 70 亿参数 Alpaca,紧接着又是 UC 伯克利联手 CMU、斯坦福、UCSD 和 MBZUAI 发布的 130 亿参数 Vicuna,在超越 90% 的情况下完成了与 ChatGPT 和 Bard 相匹敌的才能。

最近伯克利又发布了一个新模型「考拉 Koala」,比较之前运用 OpenAI 的 GPT 数据进行指令微调,Koala 的不同之处在于运用网络获取的高质量数据进行练习。

成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」

博客链接:bair.berkeley.edu/blog/2023/0…

数据预处理代码:github.com/young-geng/…

评价测验集:github.com/arnav-gudib…

模型下载:drive.google.com/drive/folde…

在发布的博客文章中,研讨人员描绘了模型的数据集办理和练习过程,一起也展示了用户研讨的成果,将该模型与 ChatGPT 和斯坦福大学的 Alpaca 模型进行了比较。

研讨成果标明,Koala 能够有用地答复各种用户的查询,生成的答复往往比 Alpaca 更受欢迎,至少在一半的情况下与 ChatGPT 的作用不相上下。

研讨人员期望这次试验的成果能够进一步推进围绕大型闭源模型相对于小型公共模型的相对功用的评论,特别是成果标明,对于那些能在本地运行的小模型,假如认真地搜集练习数据,也能够取得大模型的功用。

成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」

这或许意味着,社区应该投入更多的精力来办理高质量的数据集,或许比简略地添加现有体系的规划来说更有助于树立更安全、更实践、更有才能的模型。

需求着重的是,Koala 只是一个研讨原型,虽然研讨人员期望模型的发布能够供给一个有价值的社区资源,但它仍然在内容安全性和可靠性方面存在严重缺点,不该该在研讨之外的领域运用。

Koala 体系概览

大型言语模型发布后,虚拟助手和谈天机器人的才能也越来越强,不仅能闲谈,还能写代码、写诗、故事创作,可谓无所不能。

不过才能最强的那一批言语模型一般都需求海量的核算资源对模型进行练习,而且还需求大规划的专用数据集,普通人基本上没办法自己练习模型。

换句话说,言语模型在未来将由少量有实力的安排操控,用户和研讨人员选用付费的方法与模型进行交互,无法直接拜访模型内部来修改或改善。

另一方面,最近几个月也有一些安排发布了功用比较强壮的免费或部分开源模型,比方 Meta 的 LLaMA,这些模型的才能没办法和那些关闭模型(比方 ChatGPT)比较,但它们的才能在社区的协助下一直在迅速提高。

成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」

压力来到开源社区这边:未来是否能够看到越来越多围绕少量闭源代码模型的整合?或者是更多运用更小模型架构的敞开模型?相同架构模型的功用是否能接近规划更大的闭源模型?

虽然敞开模型不太或许与闭源模型的规划相匹配,但运用精心挑选的练习数据或许能够使它们接近没有微调过的 ChatGPT 的表现。

现实上,在此之前斯坦福大学发布的 Alpaca 模型,依据 OpenAI 的 GPT 模型对 LLaMA 的数据进行微调的试验成果已经标明,正确的数据能够明显改善规划更小的开源模型,这也是伯克利的研讨人员开发和发布 Koala 模型的初衷,为这个评论成果再供给了一个试验证明。

Koala 对从网上获取的免费交互数据进行了微调,而且特别关注包含与 ChatGPT 等高功用闭源模型交互的数据。

研讨人员依据从网络和公共数据会集提取的对话数据对 LLaMA 根底模型进行微调,其间包含对来自其他大型言语模型的用户查询的高质量响应,以及问答数据集和人类反响数据集,由此练习得到的 Koala-13B 模型展现出了与现有模型相差无几的功用。

研讨成果标明,从高质量的数据会集学习能够减轻小模型的一些缺点,甚至或许在未来与大型闭源模型相匹敌的才能,也就意味着,社区应该投入更多的精力来办理高质量的数据集,比较简略地添加现有模型的尺寸规划来说,更有助于树立更安全、更实践、更有才能的模型。

经过鼓舞研讨人员参加 Koala 模型的体系演示,研讨人员期望发现一些意料之外的特色或缺点,有助于在未来评价模型。

数据集和练习

树立对话模型的一个主要妨碍是练习数据的办理,包含 ChatGPT、Bard、Bing Chat 和 Claude 在内的一切谈天模型都运用了大量人工标示构建的专用数据集。

为了构建 Koala,研讨人员经过从网络和公共数据会集搜集对话数据来安排练习集,数据会集的一部分包含用户在线发布的大型言语模型(如 ChatGPT)的对话。

研讨人员并没有寻求尽或许多的抓取网络数据来最大化数据量,而是专心于搜集一个小型的高质量数据集,运用公共数据集来答复问题、人类反响 (评分为正面和负面) 以及与现有言语模型的对话。

ChatGPT 蒸馏数据

与 ChatGPT 的公共用户同享对话(ShareGPT):运用公共 API 搜集了大约六万条用户在 ShareGPT 上分享的对话。

成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」

网址链接:sharegpt.com/

为了确保数据质量,研讨人员删去了重复的 user query,并删去了一切非英语会话,最终留下了大约三万条样本。

人类 ChatGPT 比较语料(HC3):运用来自 HC3 英语数据集的人类和 ChatGPT 回复成果,其间包含约六万条人类答案和约 2.4 万个问题的 2.7 万个 ChatGPT 答案,一共得到约 8.7 万条问答样本。

开源数据

Open Instruction Generalist(OIG):运用从 LAION 策划的敞开指令通用数据会集手动挑选的组件子集,包含小学数学指导、诗歌到歌曲以及情节 – 剧本 – 书籍 – 对话数据集,一共得到大约 3 万个样本。

Stanford Alpaca:包含用于练习斯坦福 Alpaca 模型的数据集。

该数据集包含大约 5.2 万个样本,由 OpenAI 的 text-davinci-003 依照 self-instruct 过程生成的。

值得注意的是,HC3、 OIG 和 Alpaca 数据集是单轮问答,而 ShareGPT 数据集是多轮对话。

Anthropic HH:包含人类对模型输出的有害性和有益性的评级。

该数据集包含约 16 万条人类评价的示例,其间每个示例由一对来自谈天机器人的回复组成,其间一个是人类偏好的,该数据集为模型供给了功用和额外的安全保护。

OpenAI WebGPT:该数据集包含一共约 2 万条的比照,其间每个示例包含一个问题、一对模型答案和元数据,答案由人类依据自己的偏好进行打分。

OpenAI Summarization:包含约 9.3 万条样例,包含来自人类的关于模型生成摘要的反响,人类评价者从两个选项中挑选了更好的摘要成果。

当运用开源数据集时,一些数据集或许会供给两个回复,对应于评定为好或坏 (AnthropicHH、WebGPT、OpenAI 摘要)。

之前的研讨成果证明了条件言语模型对人类偏好符号(有用 / 无用)的有用性以提高功用,研讨人员依据偏好标签将模型置于正符号或负符号上,假如没有人类反响的话,对数据集运用正符号。在评价阶段,编写的 prompt 中包含正符号。

Koala 根据开源框架 EasyLM(预练习、微调、服务和评价各种大型言语模型),运用 JAX/Flax 完成;练习设备为一台 Nvidia DGX 服务器与 8 个 A100 GPU,需求 6 个小时练习完成 2 个 epochs。

在公共云核算渠道上,预期练习成本不超越 100 美元。

开始评价

在试验中,研讨人员评价了两个模型:Koala-Distill,只运用蒸馏数据;Koala-All 运用一切的数据,包含蒸馏和开源数据。

试验的意图是比较模型的功用,并评价蒸馏和开源数据集对最终模型功用的影响;对 Koala 模型进行人类评价,并将 Koala-All 与 Koala-Distill, Alpaca 和 ChatGPT 进行比照。

成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」

试验的测验集由斯坦福的 Alpaca Test Set 和 Koala Test Set 组成,包含 180 个测验 query

Alpaca 测验集由从 self-isntruct 数据会集抽样的 user prompt 组成,并标明 Alpaca 模型的分布式数据;为了供给更实践的评价协议,Koala 测验集包含 180 个在线发布的实在用户 query,跨越不同的主题,一般是会话式的,更能代表根据谈天体系的实践用例,而且为了减少或许的测验集泄漏,最终从练习会集筛选出 BLEU 得分大于 20% 的查询。

此外,因为研讨团队都更拿手英语,所以研讨人员删去了非英语和编码相关的提示以供给更可靠的标示成果,最终在亚马逊众包渠道上对大约 100 名标示员进行一次盲测,在评分界面为每个评分者供给一个输入提示和两个模型的输出,然后要求运用与回复质量和正确性相关的规范来判别哪个输出更好(允许相同好)。

在 Alpaca 测验会集,Koala-All 的表现与 Alpaca 适当。

在 Koala 测验集(包含实在的 user query)中,Koala-All 一切在将近一半的样本中比 Alpaca 更好,70% 的事例中超越或与 Alpaca 相同好,其间肯定有 Koala 练习调集测验集相似度更高的原因,所以这个成果并不是特别意外。

可是只需这些提示更像这些模型的下游用例,也就意味着 Koala 在类似助手的运用中会表现得更好,标明运用网络上发布的样例与言语模型进行交互,是赋予这些模型有用的指令履行才能的有用策略。

比较让人以外的是,研讨人员发现除了蒸馏数据 (Koala-All) 之外,对开源数据的练习比仅对 ChatGPT 蒸馏数据 (Koala-Distill) 的练习表现稍差。

虽然这种差异或许并不明显,但这一成果标明,ChatGPT 对话的质量十分高,以至于即便包含两倍的开源数据也不会取得明显的改善。

开始的假设是,Koala-All 应该表现得更好一些,因此在一切的评价中都运用 Koala-All 作为主要的评价模型,最终能够发现,有用的指令和辅佐模型能够从大型言语模型中取得,只需这些 prompts 能够代表用户在测验阶段的多样性即可。

所以,树立强有力的对话形式的关键或许更多地在于办理高质量的对话数据,这些数据在用户查询方面各不相同,并不能简略地将现有数据集重新格式化为问题和答案。

约束与安全

和其他言语模型一样,Koala 相同也有局限性,假如被误用的话,或许会对用户造成损伤。

研讨人员观察到,Koala 会发生错觉,并以十分自信的口吻作出非现实性的反响,或许是对话微调的成果,换句话说,就是较小的模型承继了较大言语模型的自信风格,并没有承继平等水平的现实,在未来需求要点改善。

当被误用时,Koala 的错觉回复或许会促进错误信息、垃圾邮件和其他内容的传播。

成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」

考拉能够以一种自信和令人信服的语调幻想不精确的信息,除了错觉,考拉还有其他谈天机器人言语模型的不足之处。其间包含:

  • 成见和刻板印象: 模型承继了带有成见的练习对话数据,包含刻板印象、歧视和其他损伤。
  • 缺少知识: 虽然大型言语模型能够生成看似连接和语法正确的文本,但它们往往缺少人们认为天经地义的知识知识,这或许导致荒唐或不适当的反响。
  • 有限了解: 大型言语模型或许难以了解对话的上下文和细微差别,也很难辨认挖苦或反讽,或许会导致误解。

为了处理 Koala 的安全隐患,研讨人员在 ShareGPT 和 AnthropicHH 的数据会集包含了对抗性提示,以使模型更加强健和无害。

为了进一步减少潜在的滥用,还在演示中布置了 OpenAI 的内容审核过滤器来符号和删去不安全的内容。

未来作业

研讨人员期望 Koala 模型能够成为未来大型言语模型学术研讨的一个有用的渠道:该模型足以展示现代言语模型的诸多功用,一起又足够小,能够用更少的核算量进行微调或运用,未来的研讨方向或许包含:

  • 安全性和一致性: 进一步研讨言语模型的安全性和更好的与人类意图的一致性。
  • 模型成见:更好地了解大型言语模型的成见、对话数据会集虚假相关性和质量问题的存在,以及减轻这种误差的方法。
  • 了解大型言语模型:因为 Koala 的推理能够在相对廉价的 GPU 上履行,能够更好地查看和了解对话言语模型的内部,使黑盒言语模型更简单了解。

参考资料:

bair.berkeley.edu/blog/2023/0…