LLM2D
大型语言模型中的时间感知:跨时间事实回忆的基准测试
Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time
发布日期: 9/23/2024
arXiv ID: oai:arXiv.org:2409.13338v1

摘要

arXiv:2409.13338v1 公告类型: 交叉 摘要: 谁是美国总统?答案取决于提问的时间。尽管大型语言模型(LLMs)在各种推理任务中得到评估,但它们往往忽视了一个关键维度:时间。在现实场景中,答案的正确性通常与时间背景密切相关。本文介绍了一种新型数据集,旨在严格测试LLMs处理时间敏感事实的能力。我们的基准提供了一种系统的方法来衡量LLMs的知识与正确时间背景的对齐程度,填补了当前评估方法中的一个关键空白,并为未来模型在现实应用中的改进提供了宝贵的工具。