LLM2D

摘要

大型语言模型（LLM）已经深刻地改变了我们生活的许多方面。然而，评估和确保其时间知识仍然具有挑战性。现有方法未能充分解决知识的时间适应性问题，通常依赖于固定的时间点视角。为了克服这个问题，我们引入了 ChroKnowBench，这是一个基准数据集，旨在从三个关键方面评估累积的时间知识：多个领域、时间依赖性和时间状态。我们的基准区分了随着时间推移而演变的知识（例如，个人历史、科学发现、修正后的法律）和保持不变的知识（例如，数学真理、常识性事实）。基于此基准，我们提出了 ChroKnowledge（知识的时间分类），这是一种新颖的基于采样的框架，用于评估LLM的非参数时间知识。我们的评估得出以下结论：（1）引出时间知识的能力取决于模型训练所用的数据格式。（2）LLM部分地回忆知识，或在时间边界处出现截止，而不是正确地回忆知识的所有方面。因此，我们应用了我们的 ChroKnowPrompt，这是一种深入的提示方法，通过逐步遍历周围的时间跨度来引出时间知识。我们观察到它成功地在开源和专有LLM中回忆对象，证明了其多功能性，尽管它在动态数据集和非结构化格式方面面临挑战。