夕小瑶科技说 原创
作者 | 小戏、ZenMoore

大模型生成答案不可靠?一种很直接的思路便是结合传统的查找引擎的“常识”来对大模型进行一次检索增强

其实早在 InstructGPT 问世以前,OpenAI 就发布了能够用作查找成果聚合的模型 WebGPT,WebGPT 依据 GPT-3 试图仿照人类的“查找行为”以运用查找引擎获得聚合的查找答案,从而在比方开放域长问答上收成了非常不错的成果

GLM 大加强,清华团队推出 GLM 联网加强版 WebGLM!

借鉴 WebGPT 结合查找引擎才能的思路,清华大学唐杰老师团队为目前国内开源大模型的佼佼者 ChatGLM 接上了网线,推出了 ChatGLM 的联网加强版 WebGLM,作为一个依据 GLM-10B 的联网增强版问答体系,WebGLM 能够更加精确高效的完结问答与检索的使命,甚至在试验中能够以 10B 的参数量性能逼近 175B 的 WebGPT 的表现

GLM 大加强,清华团队推出 GLM 联网加强版 WebGLM!

一个官方的运用介绍如下图所示:

GLM 大加强,清华团队推出 GLM 联网加强版 WebGLM!

譬如,假如询问疫情何时完毕,WebGLM 会“引经据典”的援引不同的网页链接对问题进行回答,能够看到回复还是相当专业,并且也都列出了真实的参阅链接,大大增强了模型回复的可信度。

GLM 大加强,清华团队推出 GLM 联网加强版 WebGLM!

而再看一个比如,关于更“软”一点的问题“如何平衡作业与日子”,WebGLM 也能够很好的处理。

GLM 大加强,清华团队推出 GLM 联网加强版 WebGLM!

对标 WebGPT,一个网络增强的问题体系一般涉及三个组件,分别是 Retriever,Generator 与 Scorer。Retriever 首要运用大模型来作为一个增强的检索器,在整个 WebGLM 中,检索器的运用分为了两个阶段:

  • 粒度查找:全体分为查找、获取与提取三个阶段,查找经过运用用户输入的问题,运用 Google API 获取首要候选网页的 URL,获取阶段依据得到的 URL 并行爬取相应的 HTML 的内容,在提取阶段依据 HTML2TEXT 得到页面的文本内容分为阶段列表。
  • 细粒度查找:在粗粒度查找中,仍然有可能会有很多内容与查找问题无关,因而 WebGLM 归纳预练习的 Contriever 检索器与 ChatGLM 对粗粒度查找的内容进行“提纯”。

在整个过程中,时间首要消耗在获取网页的步骤中,因而 WebGLM 经过运用并行异步的技能大幅加快了页面的加载时间。

GLM 大加强,清华团队推出 GLM 联网加强版 WebGLM!

而 Generator 部分首要负责从检索器得到的参阅页面中生成出高质量的问题答案,这也是作为依据 Web 增强的 GLM 的核心功用。在 WebGPT 中,OpenAI 聘请了一组全职的专家构造包括问题、答案以及有效参阅链接的三元组数据集,而在 WebGLM 中,作者团队运用大模型的上下文学习才能构造了一个包括四万五千条过滤数据与八万三千条未过滤数据的问答数据集 WebGLM-QA。

GLM 大加强,清华团队推出 GLM 联网加强版 WebGLM!

数据集生成应用了大模型出色的上下文学习才能,作者称为 Bootstrapped Generator,步骤办法如上图所示。生成首要分为 Prompt Formulation、Instruction Inducting 以及 Few-shot In-Context Learning 三个阶段,在 Prompt Formulation 中,作者比较了几种 Prompt 办法确认了最优 Prompt,在 Instruction Inducting 中作者采用了 LLM 自我设计指示的办法,以生成问题答案,而在 Few-shot In-Context Learning 中,运用一次学习的办法选择一次展现进行推理,完结数据集的构建。

最后,为了与人类的方针与偏好对齐,WebGLM 又构建了 Scorer 部分,经过运用人类反馈的强化学习来为 WebGLM 生成的答案进行评分,并依据评分对模型进行微调与放弃了部分样本。全体模型架构如下图所示:

GLM 大加强,清华团队推出 GLM 联网加强版 WebGLM!

在试验部分,经过首要对答案与参阅链接进行评价。在答案评价部分,首要运用流畅性、正确性、真实性、客观性、冗余性与引证准确度六个指标进行评价,在参阅链接评价部分,首要运用相关性、密度、真实性、有毒性以及社会偏差五个指标进行评价

经过 15 位人类专家在 272 个问题上进行打分,能够得到:

GLM 大加强,清华团队推出 GLM 联网加强版 WebGLM!

对标 WebGPT-175B,WebGLM 只是略显差劲,但其性能远高于 Perplexity.ai 与 WebGPT-13B,甚至在流畅性、真实性与冗余度方面均取得了最高的性能,并在正确率得分中接近了 WebGPT-175B

此外,作者为了检验 WebGLM 答案的质量,经过将 WebGLM、WebGPT-175B、WebGPT-13B 和 Perplexity.ai 生成的答案进行打乱,再混入人类编写的答案寻觅真实人类评价者对答案的质量进行评价,评价以“擂台赛”的方式进行,直接比较得到 A 答案与 B 答案的好坏,构建了一次问答生成的“图灵测试”。成果显现,WebGLM 对标人类也具有 43% 的胜率,几乎与 WebGPT-175B 的 45% 胜率打成平手

GLM 大加强,清华团队推出 GLM 联网加强版 WebGLM!

目前,WebGLM 公布了代码地址如下,想体会的朋友能够戳链接到达~

论文标题:
WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences

论文链接:
arxiv.org/pdf/2306.07…

项目主页:
github.com/THUDM/WebGL…