LLM2D
MemSim:用于评估基于大型语言模型的个人助理记忆能力的贝叶斯模拟器
MemSim: A Bayesian Simulator for Evaluating Memory of LLM-based Personal Assistants
作者: Zeyu Zhang, Quanyu Dai, Luyu Chen, Zeren Jiang, Rui Li, Jieming Zhu, Xu Chen, Yi Xie, Zhenhua Dong, Ji-Rong Wen
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.20163v1

摘要

基于大型语言模型 (LLM) 的智能体已被广泛应用于个人助理,能够记忆用户消息中的信息并回答个人查询。然而,由于根据用户消息构建可靠的问答 (QA) 存在挑战,目前仍缺乏对其记忆能力的客观和自动评估。在本文中,我们提出了 MemSim,一个旨在自动从生成的用户信息中构建可靠的 QA 的贝叶斯模拟器,同时保持其多样性和可扩展性。具体来说,我们引入了贝叶斯关系网络 (BRNet) 和因果生成机制来减轻 LLM 幻觉对事实信息的影响,从而促进评估数据集的自动创建。基于 MemSim,我们在日常生活场景中生成一个名为 MemDaily 的数据集,并进行大量实验来评估我们方法的有效性。我们还提供了一个基准,用于使用 MemDaily 数据集评估基于 LLM 的智能体中不同的记忆机制。为了造福研究界,我们已在 https://github.com/nuster1128/MemSim 上发布了我们的项目。