太平洋科技行业

大模型在装傻！谷歌苹果最新发现：LLM知道但不告诉你，掌握知识比表现出来的多

新智元整合编辑：太平洋科技发布于：2024-10-22 17:33

由华为云驱动

谷歌和苹果最新研究发现，AI模型掌握的知识比表现出来的更多。这些真实性信息集中在特定的token中，可以显著提高检测LLM错误输出的能力。虽然大模型常被误解为装傻，但其内部编码反映了更多真实性信息。研究建议将重点从人类幻觉转移到以模型为中心视角，并通过探测分类器预测错误类型。

大模型的应用历来受幻觉所扰。

这个幻觉可以指代LLM产生的任何类型的错误：事实不准确、偏见、常识推理失败等等。

——是因为大模型学半天白学了吗？并不是。

近日，来自谷歌和苹果的研究表明：AI模型掌握的知识比表现出来的更多！

研究人员在LLM内部表示上训练分类器，以预测与生成输出的真实性相关的各种特征。

结果表明LLM的内部状态编码反映出的真实性信息，比以前认识到的要多得多。

这些真实性信息集中在特定的token中，利用这一属性可以显著提高检测LLM错误输出的能力。

虽说这种错误检测无法在数据集中泛化，但好处是，模型的内部表示可用于预测模型可能犯的错误类型，从而帮助我们制定缓解错误的策略。

研究揭示了LLM内部编码和外部行为之间的差异：可能编码了正确的答案，却生成了不正确的答案。

——简单来说就是，LLM它知道，但它不想告诉你！

LLM在装傻

作者建议将重点从以人类为中心的幻觉解释转移到以模型为中心的视角，检查模型的中间激活。

不同于使用RAG或者依赖更强大的LLM judge，本文工作的重点是仅依赖于模型输出的logits、softmax后的概率和隐藏状态的计算。

错误检测器

第一步是确定真实性信号在LLM中的编码位置。

假设我们可以访问LLM的内部状态（白盒），但不能访问任何外部资源（搜索引擎或其他LLM）。

建立一个数据集D，由N个问题标签对组成，对于每个问题，提示模型生成响应，从而得到一组预测答案。

接下来，比较LLM生成的回答与正确答案，从而构建错误检测数据集（这一部可由AI代劳）。

实验选择了四个LLM：Mistral-7b，Mistral-7b-instruct-v0.2，Llama3-8b和Llama3-8b-instruct。

作者选取了10个跨越不同领域和任务的数据集：TriviaQA、HotpotQA（with/without context）、Natural Questions、Winobias、Winogrande、MNLI、Math、IMDB review sentiment analysis和另一个自制的电影角色数据集。

实验允许无限制地生成响应以模拟现实世界LLM的用法，并贪婪地解码答案。

性能指标

测量ROC曲线下面积以评估错误检测器，这能够反映模型在多个阈值中区分阳性和阴性情况的能力，平衡灵敏度（真阳性率）和特异性（假阳性率）。

错误检测方法

Majority：始终预测训练数据中最频繁的标签。
聚合概率/logits：从之前的研究中选取几种方法，包括计算这些值的最小值、最大值或平均值。
P（True）：通过提示要求LLM评估其生成的正确性时。
Probing：在模型的中间激活上训练一个小分类器，以预测已处理文本的特征，这里使用线性探测分类器对静态token进行错误检测。

作者认为，现有方法忽略了一个关键的细节：用于错误检测token的选择。

研究者通常只关注最后生成的token或取平均值，然而，由于LLM一般会生成长格式响应，这种做法可能会错过重要的部分。

本文中，作者关注表示确切答案的token（EXACT ANSWER TOKENS），它代表了生成的响应中最有意义的部分。

这里将EXACT ANSWER TOKENS定义为，如果修改则会改变答案正确性的token。

实践中，作者使用设置好的instruct模型代劳，来提取确切答案。之后，通过简单的搜索过程确定对应的token。

重点关注4个特定token：第一个确切答案的token及其前一个token、最后一个确切答案token及其后一个token。

作者广泛分析了层和token选择对分类器的激活提取的影响，通过系统地探测模型的所有层，从最后一个问题token开始，一直到最终生成的token。

上图显示了Mistral-7b-Struct中各个层和token关于探测的AUC指标。虽然一些数据集似乎更容易进行错误预测，但所有数据集都表现出一致的真实性编码模式，中后期层通常会产生最有效的探测结果。

通过比较使用和不使用EXACT ANSWER TOKENS的性能，来评估各种错误检测方法，上表展示了三个代表性数据集上的AUC。

不同任务中的泛化

了解错误检测器在不同任务中的泛化能力，对于实际应用程序至关重要。

上图（a）显示了Mistral-7b-instruct的泛化结果，大于0.5的值表示泛化成功。乍一看，大多数热图值超过了0.5，似乎任务之间存在一定程度的泛化。