【新智元导读】GPT内部表征的确存在实在信息,哈佛学者提出ITI引导输出走向现实方向。

大型言语模型,比如ChatGPT常常会在答案中输出过错信息,或许会对用户造成误导,这种现象也被称为模型幻觉(hallucination)。

从直觉上看,言语模型上在练习中肯定是见过正确答案的,只不过在推理进程中丢掉了现实信息。

ChatGPT说谎竟然是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销基本为零

最近,哈佛大学的研讨人员提出了推理-时刻干涉(Inference-Time Intervention,ITI)技术,在推理阶段对模型激活进行变换(shift),将模型输出引导到现实的方向上,干涉成果显着提高了LLaMA模型在TruthfulQA基准测试中的功能,将Alpaca模型的实在性从32.5%提高到65.1%

ChatGPT说谎竟然是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销基本为零

论文链接:arxiv.org/pdf/2306.03…

代码链接:github.com/likenneth/h…

研讨人员用此技术开发并开源了一个「诚笃的LLaMA」模型。

ChatGPT说谎竟然是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销基本为零

ITI还能够经过操控超参数来调整干涉强度,平衡模型的实在性和有用性;ITI没有修改原始模型,也根本没有核算开销;而且ITI也不需求很多的标注数据,只需求几百个样本即可确认现实的实在性方向。

研讨成果表明,言语模型内部表征中的确存在现实信息,不过有时在生成时挑选了过错现实。

ITI让答案更实在

已经有相关作业在「了解LLMs的内部运作机制」方面取得了进展,其中一个重要的主题是,言语模型的激活空间似乎包括可解释的方向,在推理进程中会发挥因果作用。

研讨人员根据这个主意提出了一种增强言语模型现实性的办法,即推理-时刻干涉,其根本思维是确认激活空间中与现实正确的句子相关的方向,然后在推理进程中向该方向变换激活。

这篇论文首要探究了怎么操控模型行为,并在试验中运用开源的LLaMA、Alpaca和Vicuna模型,不过该思维适用于一切GPT风格的体系,但必须能够获得模型的内部激活和核算。

ITI办法还需求一组有标注的问答对,用以确认与模型讲真话有关的留意头和方向。

根本设置

在数据集挑选上,研讨人员挑选了TruthfulQA,能够衡量言语模型在生成答案时是否实在。

数据会集一共包括817个问题,横跨38个类别(例如,逻辑过错、阴谋和常见的混淆点),每个问题均匀有3.2个实在的答案,4.1个虚伪的答案,以及一个由可信的在线来历支撑的金标准答案;然后将TruthfulQA的答案重新编列,一共得到5918个问答对,每个数据样本都有一个二元实在性标签。

需求强调的是,该数据集并没有涵盖「实在」(truth)一词的悉数意义,想悉数覆盖也不大或许,研讨人员首要重视怎么防止「常见的人类误解」,未来的研讨方向会考虑扩展实在性的概念及评价。

在模型架构上,大型言语模型首要是Transformer层,每层内的首要机制为多头留意力(MHA)和多层感知器(MLP)。

在推理进程中,每个token首要被嵌入到一个高维空间中,该向量作为残差流的起点,最终每个token解码为对下一个token散布的猜测;在每一层中,MHA由多个独立的线性运算组成,MLP则容纳了模型中一切非线性运算。

勘探实在性

想要提高神经网络的实在性,首要需求判断模型的激活空间内是否存在能实在性或现实性。

辨认网络内部表征的一个常用工具是勘探(probe),即在网络激活上练习一个分类器作为勘探器以区别特定类型的输入或输出。

在现实性检测上,勘探器首要检查能够区别真、假答案的留意力头输出值。

于TruthfulQA中的每个样本,研讨人员将问题/答案串联在一起,并在最后一个token处取出头部激活作为勘探数据集;然后将数据集按4 : 1随机分成练习集和验证集,在练习集上拟合一个二元线性分类器,并运用验证精度来衡量每个头与基准数据功能之间的关系。

试验成果展示了跨留意力头的专用模式,关于每层的多个头,线性勘探能够达到基线模型的准确性,不过还是显示出强大功能的潜力,比如准确率最高的是由第14层的第18个头实现的,验证准确性为83.3%

ChatGPT说谎竟然是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销基本为零

此外,还能够看到各层之间的差异:信息首要是在前面的层中处理的,每层内部都有一小部分留意力头锋芒毕露。

经过相似主成分剖析(PCA)的办法,能够将激活空间内的维度降低到2,并进行可视化,能够观察到「实在」的概念不止存在于一个方向,而是存在于一个子空间内。

推理-时刻干涉

上述勘探试验描述LLM怎么在其留意头之间和内部处理与现实有关的信息,还提出了一种改善基准数据集功能的技术。

如果在推理进程中进行干涉,使激活向「实在」的方向转变,那么网络就有或许对基准问题供给更实在的答案。

首要,研讨人员并没有挑选对一切留意力头进行干涉,因为只要一部分留意力头与实在性密切相关,而是只对前K个头的成果进行干涉,以使其具有最小的侵略性。

第二个问题在于怎么确认用于变换特定头部输出的激活的矢量,因为真、假句子的几何形状都很杂乱,在挑选变换激活的方向时,能够挑选与勘探学到的别离超平面正交的向量,他也能够挑选连接真假散布的均匀值的向量,下表中列出了不同干涉方向的比较试验。

ChatGPT说谎竟然是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销基本为零

Probe weight方向是经过线性探针找到的方向,在这个方向上进行干涉,相当于对头部激活做梯度下降,使其被猜测为实在的概率最大化。

Mass Mean Shift的作业原理是首要核算实在和虚伪激活的均匀值,然后运用从虚伪均匀值指向实在均匀值的向量进行干涉。

比照一致查找(CCS)为在只知道内部激活成对信息的情况下找到的方向。

研讨人员在TruthfulQA上练习CCS,对每个问题抽取一个实在的和一个过错的答案,因为CCS不接受有标签的输入,所以发现的方向有同等的机会成为实在和虚伪的方向,然后运用标签来辨认实在的方向以进行干涉。

研讨人员首要经过验证集上的勘探精度对一切留意力头的真假相关度进行排序。把前K个头作为目标集合;然后利用练习集和验证集的激活,估量沿实在方向的激活的标准偏差。

ChatGPT说谎竟然是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销基本为零

ITI是MHA的一种代替方式,关于未被选中的留意头,是一个零向量,相当于将激活沿实在方向移动倍的标准差。

ChatGPT说谎竟然是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销基本为零

整个进程对每次next token猜测都是自回归地重复的,而且与解码算法的挑选是正交的。

公式中有两个关键参数,即干涉的留意力头数量K和干涉强度,不过目前还没有关于最佳值的理论证明,只能经过试验探究参数的影响,并经过标准的超参数扫描确认最佳值。

从核算功率角度来看,不管干涉了多少个留意力头,ITI只会在每一层增加一个常数向量,能够认为干涉办法的核算开销接近于零。

试验部分

用于比照的基线办法如下:

1. 有监督微调(SFT)

SFT是RLHF的第一阶段,研讨人员用问题作为提示,用穿插熵损失促进模型生成实在的答案,并赏罚过错的答案。

但如果只用上述操作,穿插熵损失和KL散度会急剧上升,所以还需求交替对问答进行有监督练习和对开放网络文本进行预练习。

2. 少样本提示(FSP)

有研讨人员发现,与上下文蒸馏和RLHF相比,indistribution 50-shot提示在TruthfulQA上也是一个有竞争力的基线办法。

但因为提示策略的挑选与推理时刻操控办法是正交的,研讨人员比照了有ITI和无ITI的少样本提示。

3. 指令微调(IFT)

为了了解ITI怎么使IFT模型更加实在,研讨人员首要挑选了两个根据LaMA-7B的模型(Alpaca和Vicuna)执行ITI操作。

ChatGPT说谎竟然是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销基本为零

研讨人员首要寻觅操控干涉强度的超参数最佳值,最后确认K=48和=15

ChatGPT说谎竟然是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销基本为零

从成果来看,少样本提示与ITI的结合取得了最佳成果。

ChatGPT说谎竟然是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销基本为零

将ITI应用于指令微调模型,寻觅并干涉其实在性方向的试验中能够看到,ITI显着比基线提高了实在性,还能够被应用在少样本提示或指令微调之上,不过代价是CE损失和KL散度提高相对较低

参考资料:

the-decoder.com/honest-llam…