摘要
arXiv:2312.02073v3 宣告类型:交叉
摘要:大型语言模型(LLMs)具有从其上下文中汲取新颖信息的惊人能力。然而,这些上下文关系背后的机制仍然未知,尤其是在上下文信息与参数中储存的事实知识相矛盾的情况下,LLMs 也擅长回忆这些知识。在检索增强生成方法中,偏好上下文信息至关重要,这些方法通过丰富上下文以提供最新的信息,希望可以使知识锚定纠正过时或嘈杂的储存知识。我们提出了一种新的方法来研究锚定能力,使用 Fakepedia,一个新构建的与模型内部参数化知识相矛盾的反事实文本数据集。在这项研究中,我们介绍了 Fakepedia,这是一种反事实数据集,设计用于评估内部参数化知识与上下文信息相矛盾时的锚定能力。我们使用各种 LLMs 对 Fakepedia 进行基准测试,并基于我们的 Masked Grouped Causal Tracing(MGCT)方法对 LLM 组件在回答 Fakepedia 查询时进行因果中介分析。通过这种方法的分析,我们识别出锚定和未锚定响应之间不同的计算模式。我们最终证明,仅通过计算分析即可区分锚定和未锚定的响应。我们的结果,结合关于事实回忆机制的现有发现,提供了 LLM 内锚定机制和事实回忆机制交互作用的连贯叙述。