编者按：近期简直每隔一段时刻，就有新的大言语模型发布，可是当下仍然没有一个通用的规范来评价这些大型言语模型的质量，咱们急需一个可靠的、归纳的LLM评价结构。

本文说明晰为什么咱们需求一个全面的大模型评价结构，并介绍了市面上这些现有的评价结构，一起指出这些结构存在的问题，最后说明怎么评价大型言语模型（LLM），评价时应该考虑哪些要素。

以下是译文，Enjoy!

作者 |Gyan Prakash Tripathi

编译|岳扬

01 简介 Introduction

跟着ChatGPT和其他大型言语模型（LLMs）的发布，可用模型数量很多添加，现在简直每天都有新的LLMs发布。虽然如此，当下仍然没有一个通用的规范来评价这些大型言语模型的质量。本文将回忆现有的大型言语模型（LLMs）和依据LLMs的体系化评价结构。此外，咱们还将测验剖析LLMs哪些要素应该受到评价。

Source: Cobus Greyling

02 为什么急需一个全面的LLMs评价结构？

在某项技术发展的早期阶段，咱们很容易确认哪些地方需求改善。然而，跟着技术进步和各种新的代替计划呈现，咱们越来越难确认哪种计划挑选最好。因而，具有一个可靠的评价结构来精确评判LLMs的质量变得非常重要。

关于LLMs，当下迫切需求一个真实的评价结构。这种结构可用于以下三种方式评价LLMs：

能够帮助管理机构和其他相关机构评价模型的安全性、精确性、可靠性或可用性问题。
现在，这些大型科技公司好像在盲目地力争上游发布LLMs，许多公司仅仅在其产品上附加免责声明来企图撇清职责。因而拟定一个全面的评价结构将有助于这些公司更负职责地发布这些模型。
假如具有一个全面的评价结构，能够帮助这些LLMs的用户确认在哪里以及怎么微调这些大模型，并使他们清楚应该运用哪些额外的数据来完成布置。

在接下来的内容中，咱们将会回忆当前的模型评价形式。

03 现有的LLMs评价结构有哪些？

评价大言语模型来确认它们在各种运用中的质量和实用性是比较重要的。市面上现已存在多个评价LLMs的结构，可是没有一个结构满足全面，能够掩盖一切自然言语处理使命。让咱们看一下这些现有的主流评价结构。

结构名称	评价时考虑的要素	结构链接
Big Bench	泛化才能	github.com/google/BIG-…
GLUE Benchmark	语法、释义、文本相似度、推理、文本关联性、处理代词引用问题的才能	gluebenchmark.com/
SuperGLUE Benchmark	自然言语了解、推理，了解练习数据之外的复杂句子，连接和规范的自然言语生成，与人对话，常识推理（日常场景、社会规范和惯例），信息检索，阅览了解	super.gluebenchmark.com/
OpenAI Moderation API	过滤有害或不安全的内容	platform.openai.com/docs/api-re…
MMLU	跨各种使命和范畴的言语了解	github.com/hendrycks/t…
EleutherAI LM Eval	在最小程度的微调情况下，运用小样本进行评价，并能够在多种使命发挥功用的才能。	github.com/EleutherAI/…
OpenAI Evals	github.com/EleutherAI/… 文本生成的精确性，多样性，一致性，鲁棒性，可转移性，功率，公平性	github.com/openai/eval…
Adversarial NLI (ANLI)	鲁棒性，泛化性，对推理的连接性解释，在相似示例中推理的一致性，资源运用方面的功率（内存运用、推理时刻和练习时刻）	github.com/facebookres…
LIT (Language Interpretability Tool)	以用户定义的目标进行评价的平台。了解其优势、下风和潜在的成见	pair-code.github.io/lit/
ParlAI	精确率，F1分数，困惑度（模型在猜测序列中下一个单词的表现），按相关性，流畅性和连接性等规范进行人工评价，速度和资源利用率，鲁棒性（评价模型在不同条件下的表现，如噪声输入、对立攻击或不同水平的数据质量），泛化性	github.com/facebookres…
CoQA	了解文本段落并答复呈现在对话中的一系列相互关联的问题。	stanfordnlp.github.io/coqa/
LAMBADA	猜测一段文本的最后一个词。	zenodo.org/record/2630…
HellaSwag	推理才能	rowanzellers.com/hellaswag/
LogiQA	逻辑推理才能	github.com/lgw863/Logi…
MultiNLI	了解不同体裁的句子之间的关系	cims.nyu.edu/~sbowman/mu…
SQUAD	阅览了解使命	rajpurkar.github.io/SQuAD-explo…

04 现有评价结构存在的问题

上述评价大型言语模型的办法各有其优势。然而，有几个重要要素使得以上这些办法好像都并不满足完善：

以上任何一个结构都没有将安全性作为评价要素考虑在内。虽然“OpenAI Moderation API”在某种程度上涉及这个问题，但这并不满足。
上述结构在评价模型要素方面是涣散的。它们中没有一个要素是满足全面归纳的。

在下一节中，咱们将测验列出一切应该在一个归纳的评价结构中存在的重要要素。

05 在评价LLMs时应考虑哪些要素？

通过审查现有的大模型评价结构存在的问题之后，下一步是确认在评价大型言语模型（LLMs）的质量时应考虑哪些要素。咱们听取12名数据科学专业人员的意见，这12名专家对LLMs的工作原理和工作才能有一定的了解，而且他们曾经测验过测验多个LLMs。该查询旨在依据他们的了解列出一切重要要素，并在此根底之上评价LLMs的质量。

最终，咱们发现有几个关键要素应该被考虑：

1. 真实性

LLMs生成的成果精确性至关重要。包含现实的正确性以及推理和处理计划的精确性。

2. 速度

模型发生成果的速度很重要，特别是当大模型需求布置到关键功用（critical use cases）时。虽然在某些情况下速度较慢的大模型或许能够可接受，但这些rapid action团队需求速度更快的模型。

3. 正确的语法和可读性

LLMs有必要以具备可读性的格局生成自然言语。保证正确、合适的语法和句子结构至关重要。

4. 没有成见

LLMs有必要不受与性别、种族和其他要素相关的社会成见影响。

5. 回溯答复的参阅来历

了解模型答复的来历关于咱们来说是十分必要的，以便咱们能够重复查看其 basis。假如没有这个，LLMs的功用将始终是一个黑匣子。

6. 安全和职责

AI模型的安全保障是必要的。虽然大多数公司正在努力使这些大模型安全，但仍然有明显的改善空间。

7. 了解上下文

当人类向AI谈天机器人咨询有关个人生活的建议时，重要的是该模型需求依据特定的条件供给更好的处理计划。在不同的上下文中提出同样的问题或许会有不同的答案。

8. 文本操作

LLMs需求能够履行基本的文本操作，如文本分类、翻译、摘要等。

9. 智商

智商是用来评判人类智力的一项目标，也能够运用于机器。

10. 情商

情商是人类智力的另一方面，也可运用于LLMs。具有更高情商的模型将更安全地被运用。

11. 具备多功用

模型能够包括的范畴和言语数量是另一个重要要素，能够用于将模型分类为通用AI或特定范畴的AI。

12. 实时更新

一个能够实时进行信息更新的模型能够做出更大范围的奉献，发生更好的成果。

13. 成本

开发和运维成本也应该考虑在内。

14. 一致性

相同或相似的提示应该发生相同或简直相同的呼应，不然保证布置于商业环境的质量将会很困难。

15. 提示工程的需求程度

需求运用多少具体和结构化的提示工程才能获得最佳呼应，也能够用来比较两个模型。

06 总结

大型言语模型（LLMs）的发展彻底改变了自然言语处理范畴。然而，当下仍需一个全面性的和规范化的评价结构来评价这些模型的质量。现有的结构供给了有价值的参阅，但它们缺乏全面性和规范化，而且没有将安全作为评价要素。

可靠的评价结构应该考虑比如真实性、速度、正确的语法和可读性、没有成见、回溯答复的参阅来历、安全和职责、了解上下文、文本操作、智商、情商、具备多功用和实时更新等要素。开发这样的结构将帮助这些公司更负职责地发布LLMs，并能够保证其质量、可用性和安全性。与相关机构和专家协作，树立一个真实和全面的LLMs评价结构是十分有必要的。

END

本文经原作者授权，由Baihai IDP编译。如需转载译文，请联络获取授权。

原文链接：

www.analyticsvidhya.com/blog/2023/0…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

如何评估大型语言模型（LLM）？

目录