夕小瑶科技说 分享
来历 | 机器之心

言语大模型不断向垂直职业领域拓展,这次出圈的是北大法令大模型。

大模型又「爆了」。

昨晚,一个法令大模型 ChatLaw 登上了知乎热搜榜第一。热度最高时达到了 2000 万左右。

这个 ChatLaw 由北大团队发布,致力于供给普惠的法令服务。一方面当时全国执业律师缺乏,供给远远小于法令需求;另一方面普通人对法令知识和条文存在天然距离,无法运用法令武器保护自己。

大言语模型最近的崛起正好为普通人以对话办法咨询法令相关问题供给了一个绝佳契机。

挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判!

目前,ChatLaw 共有三个版别,分别如下:

  • ChatLaw-13B,为学术 demo 版,依据姜子牙 Ziya-LLaMA-13B-v1 练习而来,中文各项体现很好。可是,逻辑杂乱的法令问答作用欠安,需要用更大参数的模型来处理;

  • ChatLaw-33B,也为学术 demo 版,依据 Anima-33B 练习而来,逻辑推理才能大幅提高。可是,因为 Anima 的中文语料过少,问答经常会呈现英文数据;

  • ChatLaw-Text2Vec,运用 93w 条判定事例做成的数据集,依据 BERT 练习了一个类似度匹配模型,可以将用户提问信息和对应的法条相匹配。

依据官方演示,ChatLaw 支撑用户上传文件、录音等法令资料,帮助他们归纳和剖析,生成可视化导图、图表等。此外,ChatLaw 可以依据现实生成法令主张、法令文书。该项目在 GitHub 上的 Star 量达到了 1.1k。

挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判!

官网地址
www.chatlaw.cloud/

论文地址
arxiv.org/pdf/2306.16…

GitHub 地址
github.com/PKU-YuanGro…

目前,因为 ChatLaw 项目太过火爆,服务器暂时崩溃,算力已达上限。该团队正在修复,感兴趣的读者可以在 GitHub 上部署测试版模型。

小编自己也还在内测排队中。所以这里先展示一个 ChatLaw 团队供给的官方对话示例,关于日常网购时可能会遇到的「七天无理由退货」问题。不得不说,ChatLaw 答复挺全的。

挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判!

不过,小编发现,ChatLaw 的学术 demo 版别可以试用,遗憾的是没有接入法令咨询功用,只供给了简单的对话咨询服务。这里测验问了几个问题。

挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判!

挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判!

挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判!

其实最近发布法令大模型的不只有北大一家。上个月底,幂律智能联合智谱 AI 发布了千亿参数级法令垂直大模型 PowerLawGLM。据悉该模型针对中文法令场景的使用作用展示出了共同优势。

挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判!

ChatLaw 的数据来历、练习框架

首先是数据组成。ChatLaw 数据主要由论坛、新闻、法条、司法解释、法令咨询、法考题、判定文书组成,随后经过清洗、数据增强等来结构对话数据。一起,经过与北大国际法学院、职业知名律师事务所进行合作,ChatLaw 团队可以保证知识库能及时更新,一起保证数据的专业性和可靠性。下面咱们看看详细示例。

依据法令法规和司法解释的构建示例:

挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判!

抓取真实法令咨询数据示例:

挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判!

律师考试多项选择题的建构示例:

挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判!

然后是模型层面。为了练习 ChatLAW,研讨团队在 Ziya-LLaMA-13B 的基础上运用低秩自适应 (Low-Rank Adaptation, LoRA) 对其进行了微调。此外,该研讨还引进 self-suggestion 人物,来缓解模型发生错觉问题。练习过程在多个 A100 GPU 上进行,并凭借 deepspeed 进一步降低了练习本钱。

如下图为 ChatLAW 架构图,该研讨将法令数据注入模型,并对这些知识进行特别处理和加强;与此一起,他们也在推理时引进多个模块,将通识模型、专业模型和知识库融为一体。

该研讨还在推理中对模型进行了束缚,这样才干保证模型生成正确的法令法规,尽可能削减模型错觉。

挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判!

一开端研讨团队测验传统的软件开发办法,如检索时采用 MySQL 和 Elasticsearch,但成果不尽善尽美。因而,该研讨开端测验预练习 BERT 模型来进行嵌入,然后运用 Faiss 等办法以计算余弦类似度,提取与用户查询相关的前 k 个法令法规。

当用户的问题模糊不清时,这种办法一般会发生次优的成果。因而,研讨者从用户查询中提取要害信息,并使用该信息的向量嵌入规划算法,以提高匹配准确性。

因为大型模型在了解用户查询方面具有明显优势,该研讨对 LLM 进行了微调,以便从用户查询中提取要害字。在获得多个要害字后,该研讨采用算法 1 检索相关法令规定。

挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判!

试验成果

该研讨收集了十余年的国家司法考试标题,收拾出了一个包含 2000 个问题及其标准答案的测试数据集,用以衡量模型处理法令选择题的才能。

然而,研讨发现各个模型的准确率遍及偏低。在这种情况下,仅对准确率进行比较并无多大含义。因而,该研讨学习英豪联盟的 ELO 匹配机制,做了一个模型对立的 ELO 机制,以便更有效地评估各模型处理法令选择题的才能。以下分别是 ELO 分数和胜率图:

挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判!

经过对上述试验成果的剖析,咱们可以得出以下观察成果

(1)引进与法令相关的问答和法规条文的数据,可以在必定程度上提高模型在选择题上的体现;

(2)加入特定类型使命的数据进行练习,模型在该类使命上的体现会明显提高。例如,ChatLaw 模型优于 GPT-4 的原因是文中运用了很多的选择题作为练习数据;

(3)法令选择题需要进行杂乱的逻辑推理,因而,参数量更大的模型一般体现更优。

参考资料

[1]https://www.zhihu.com/question/610072848
[2]https://mp.weixin.qq.com/s/bXAFALFY6GQkL30j1sYCEQ

大模型AI全栈手册

职业首份AI全栈手册开放下载啦!!

长达3000页,包括大言语模型技术发展、AIGC技术最新动向和使用、深度学习技术等AI方向。微信公众号重视“夕小瑶科技说”,回复“789”下载资料

挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判!