LLM2D

摘要

arXiv:2409.13338v1 公告类型: 交叉摘要: 谁是美国总统？答案取决于提问的时间。尽管大型语言模型（LLMs）在各种推理任务中得到评估，但它们往往忽视了一个关键维度：时间。在现实场景中，答案的正确性通常与时间背景密切相关。本文介绍了一种新型数据集，旨在严格测试LLMs处理时间敏感事实的能力。我们的基准提供了一种系统的方法来衡量LLMs的知识与正确时间背景的对齐程度，填补了当前评估方法中的一个关键空白，并为未来模型在现实应用中的改进提供了宝贵的工具。