LLM2D

摘要

arXiv:2409.13338v3 类型: replace-cross 摘要: 谁是美国总统？这个问题的答案取决于提问的时间。虽然大型语言模型（LLMs）在各种推理任务中得到了评估，但它们往往忽略了时间这一关键维度。在现实场景中，答案的正确性经常与时间背景密切相关。为了弥补这一差距，我们提出了一种新型框架和数据集，涵盖了从2018年到2024年的超过8000个事件，并以日级别粒度进行了注释，数据来自政治、科学和商业等多个领域。我们的TimeShift评估方法系统地检测LLMs的时间推理能力，揭示出基模型在时间敏感的记忆任务上常常优于指令微调和合成训练的版本。此外，我们还发现，即使大规模模型在处理改写过的事实时也会表现出脆弱性，这突出了一直存在的时间连贯性挑战。通过识别这些局限性，我们的工作为开发能够适应现实世界知识动态性的时感知语言模型提供了一个重要的步骤。