LLM2D
利用序列顺序回忆任务评估大型语言模型的 episodic memory 能力
Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks
作者: Mathis Pink, Vy A. Vo, Qinyuan Wu, Jianing Mu, Javier S. Turek, Uri Hasson, Kenneth A. Norman, Sebastian Michelmann, Alexander Huth, Mariya Toneva
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.08133v1

摘要

当前的 LLM 基准测试主要关注评估模型对事实和语义关系的记忆,主要评估长期记忆的语义方面。然而,在人类中,长期记忆还包括情景记忆,它将记忆与其上下文联系起来,例如记忆发生的时间和地点。将记忆置于情境的能力对于许多认知任务和日常生活功能至关重要。这种形式的记忆在现有的基准测试中尚未在 LLM 中得到评估。为了弥合评估 LLM 中记忆的差距,我们引入了序列顺序回忆任务 (SORT),我们从用于研究认知心理学中情景记忆的任务中改编而来。SORT 要求 LLM 回忆文本片段的正确顺序,并提供了一个既易于扩展又无需任何额外注释的通用框架。我们提供了一个初始评估数据集 Book-SORT,它包含从最近添加到公共领域的 9 本书中提取的 36,000 对片段。根据一项有 155 名参与者的人类实验,我们发现人类可以根据对一本书的长期记忆来回忆序列顺序。我们发现,当在 SORT 评估期间提供相关的文本时,模型可以以很高的准确率执行任务。然而,当仅在训练期间提供书籍文本时,LLM 在 SORT 上的表现就差强人意。通过允许评估记忆的更多方面,我们相信 SORT 将有助于记忆增强模型的不断发展。