LLM2D

摘要

知识密集型语言理解任务要求语言模型 (LM) 整合相关上下文，以缓解其固有的弱点，例如知识不完整或过时。然而，LM 的参数中可能存在相互冲突的知识，称为内存内冲突，这会影响模型接受上下文知识的倾向性。为了研究内存内冲突对 LM 接受相关上下文的能力的影响，我们利用了两种知识冲突度量方法和一个包含固有冲突数据的新数据集 DynamicQA。该数据集包含具有时间动态性质的事实，其中事实会随着时间的推移而改变，以及可争议的动态事实，这些事实会根据观点而改变。DynamicQA 是第一个包含现实世界知识冲突并提供上下文以研究不同类型的知识冲突之间联系的数据集。我们还评估了几种度量方法，以衡量它们反映内存内冲突存在的能力：语义熵和一种新颖的连贯说服分数。通过我们广泛的实验，我们验证了与具有单一真值的事实相比，LM 在动态事实中表现出更大程度的内存内冲突。此外，我们发现具有内存内冲突的事实更难用上下文更新，这表明检索增强生成将难以处理最常适应的事实。