LLM2D
ChroKnowledge:揭示多领域语言模型的时间知识
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains
作者: Yein Park, Chanwoong Yoon, Jungwoo Park, Donghyeon Lee, Minbyul Jeong, Jaewoo Kang
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2410.09870v2

摘要

大型语言模型(LLM)已经深刻地改变了我们生活的许多方面。然而,评估和确保其时间知识仍然具有挑战性。现有方法未能充分解决知识的时间适应性问题,通常依赖于固定的时间点视角。为了克服这个问题,我们引入了 ChroKnowBench,这是一个基准数据集,旨在从三个关键方面评估累积的时间知识:多个领域、时间依赖性和时间状态。我们的基准区分了随着时间推移而演变的知识(例如,个人历史、科学发现、修正后的法律)和保持不变的知识(例如,数学真理、常识性事实)。基于此基准,我们提出了 ChroKnowledge(知识的时间分类),这是一种新颖的基于采样的框架,用于评估LLM的非参数时间知识。我们的评估得出以下结论:(1)引出时间知识的能力取决于模型训练所用的数据格式。(2)LLM部分地回忆知识,或在时间边界处出现截止,而不是正确地回忆知识的所有方面。因此,我们应用了我们的 ChroKnowPrompt,这是一种深入的提示方法,通过逐步遍历周围的时间跨度来引出时间知识。我们观察到它成功地在开源和专有LLM中回忆对象,证明了其多功能性,尽管它在动态数据集和非结构化格式方面面临挑战。