LLM2D

摘要

基于大型语言模型 (LLM) 的智能体已被广泛应用于个人助理，能够记忆用户消息中的信息并回答个人查询。然而，由于根据用户消息构建可靠的问答 (QA) 存在挑战，目前仍缺乏对其记忆能力的客观和自动评估。在本文中，我们提出了 MemSim，一个旨在自动从生成的用户信息中构建可靠的 QA 的贝叶斯模拟器，同时保持其多样性和可扩展性。具体来说，我们引入了贝叶斯关系网络 (BRNet) 和因果生成机制来减轻 LLM 幻觉对事实信息的影响，从而促进评估数据集的自动创建。基于 MemSim，我们在日常生活场景中生成一个名为 MemDaily 的数据集，并进行大量实验来评估我们方法的有效性。我们还提供了一个基准，用于使用 MemDaily 数据集评估基于 LLM 的智能体中不同的记忆机制。为了造福研究界，我们已在 https://github.com/nuster1128/MemSim 上发布了我们的项目。