LLM2D

摘要

长期记忆对于聊天机器人和对话系统（DS）至关重要，以至于研究人员开发了众多记忆增强型DS。然而，它们的评估方法与人类对话中的实际情况不同。它们仅测量了给定查询时事实信息的准确性或生成响应的困惑度，这几乎无法反映其性能。此外，它们仅考虑基于相似性的被动记忆检索，忽略了人类多样化的记忆召回范式，例如情感和环境。为了弥合这一差距，我们基于认知科学和心理学理论构建了一个涵盖多种记忆召回范式的新基准。记忆基准（MemBench）根据认知科学中的两阶段理论包含两个任务：记忆检索、记忆识别和注入。该基准首次考虑了基于元信息的被动和主动记忆召回。此外，提出了新的评分方面，以全面衡量生成的响应。MemBench上最强嵌入模型和LLMs的结果显示，现有对话系统仍有大量改进空间。广泛的实验还揭示了记忆注入与情感支持（ES）技能和亲密度的相关性。我们的代码和数据集将发布。