摘要
当前的 LLM 基准测试主要关注评估模型对事实和语义关系的记忆,主要评估长期记忆的语义方面。然而,在人类中,长期记忆还包括情景记忆,它将记忆与其上下文联系起来,例如记忆发生的时间和地点。将记忆置于情境的能力对于许多认知任务和日常生活功能至关重要。这种形式的记忆在现有的基准测试中尚未在 LLM 中得到评估。为了弥合评估 LLM 中记忆的差距,我们引入了序列顺序回忆任务 (SORT),我们从用于研究认知心理学中情景记忆的任务中改编而来。SORT 要求 LLM 回忆文本片段的正确顺序,并提供了一个既易于扩展又无需任何额外注释的通用框架。我们提供了一个初始评估数据集 Book-SORT,它包含从最近添加到公共领域的 9 本书中提取的 36,000 对片段。根据一项有 155 名参与者的人类实验,我们发现人类可以根据对一本书的长期记忆来回忆序列顺序。我们发现,当在 SORT 评估期间提供相关的文本时,模型可以以很高的准确率执行任务。然而,当仅在训练期间提供书籍文本时,LLM 在 SORT 上的表现就差强人意。通过允许评估记忆的更多方面,我们相信 SORT 将有助于记忆增强模型的不断发展。