LLM2D

摘要

arXiv:2504.12523v1 更新类型: 横向摘要：大型语言模型（LLMs）在其参数中编码了大量的预训练知识，但随着现实世界信息的变化进行更新仍然是一项挑战。现有的方法和基准主要针对实体替换，未能捕捉到复杂现实世界动态的全部范围。在本文中，我们引入了Knowledge Update Playground (KUP)，这是一种自动管道，用于模拟反映在证据语料库中的实际知识更新。KUP的评估框架包括直接和间接探针，用于测试对更新事实的记忆以及对其的推理，以评估任何更新学习方法。接下来，我们提出了一种名为memory conditioned training (MCT)的轻量级方法，在训练过程中将更新语料库中的标记条件化为自动生成的“记忆”标记。我们的策略鼓励在推理过程中展示和推理新增的记忆知识。我们在两个强大的LLM上进行的结果表明，(1) KUP基准极具挑战性，最佳CPT模型在间接探针（推理）设置下得分低于2%，(2) MCT训练明显优于先前的继续预训练（CPT）基线，直接探针（记忆）结果提高了最多25.4%。