LLM2D

摘要

arXiv:2409.13338v2 更新类型: 交叉替换摘要: 谁是美国总统？这个问题的答案取决于提问的时间。尽管大型语言模型（LLMs）在各种推理任务中得到了评估，但它们往往忽略了时间这一关键维度。在现实世界的情景中，答案的正确性通常与时间上下文密切相关。为了解决这一差距，我们提出了一种新的框架和数据集，涵盖了从2018年到2024年的超过8,000个事件，并且这些数据集在日级别进行了标注，来源涵盖了政治、科学和商业等多个领域。我们的TimeShift评估方法系统地测试了LLMs对时间推理的能力，揭示了基础模型在时间敏感的回忆方面往往优于指令优化和合成训练的版本。此外，我们发现即使大规模模型在处理改写过的事实时也表现出脆弱性，这揭示了时间一致性问题中的未解决挑战。通过识别这些限制，我们的工作为开发能够适应现实世界知识动态性的具备时间意识的语言模型提供了一大步进展。