LLM2D
如果一个语言模型是一个角色,它会知道自己的故事吗?评估语言模型的终身学习能力
If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs
作者: Siqi Fan, Xiusheng Huang, Yiqun Yao, Xuezhi Fang, Kang Liu, Peng Han, Shuo Shang, Aixin Sun, Yequan Wang
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23514v1

摘要

arXiv:2503.23514v1 宣告类型: 横跨多个领域 摘要:大规模语言模型(LLMs)能够进行类似人类的对话,但不同的是,由于叠加属性,它们是无状态的。然而,在多轮、多智能体交互过程中,LLMs开始表现出一致的、类似角色的行为,这暗示着某种形式的 Emergent 终身学习。尽管如此,现有基准通常未能捕捉这些动态,主要集中在静态、开放式评估上。为了解决这一差距,我们引入了 LIFESTATE-BENCH,这是一个旨在评估 LLMs 终身学习能力的基准。它包含两个分集数据集:Hamlet 和一个合成剧本集,这些剧本富含叙述结构和角色互动。我们的事实检查评估测试了模型的自我意识、事件记忆检索和关系跟踪能力,涵盖了参数化和非参数化方法。在 Llama3.1-8B、GPT-4-turbo 和 DeepSeek R1 模型上进行的实验表明,非参数化方法在处理有状态学习方面显著优于参数化方法。然而,所有模型在交互时间延长时都表现出灾难性遗忘的挑战,突显了进一步在终身学习方面的必要进步。