LLM2D

摘要

arXiv:2503.23514v1 宣告类型: 横跨多个领域摘要：大规模语言模型（LLMs）能够进行类似人类的对话，但不同的是，由于叠加属性，它们是无状态的。然而，在多轮、多智能体交互过程中，LLMs开始表现出一致的、类似角色的行为，这暗示着某种形式的 Emergent 终身学习。尽管如此，现有基准通常未能捕捉这些动态，主要集中在静态、开放式评估上。为了解决这一差距，我们引入了 LIFESTATE-BENCH，这是一个旨在评估 LLMs 终身学习能力的基准。它包含两个分集数据集：Hamlet 和一个合成剧本集，这些剧本富含叙述结构和角色互动。我们的事实检查评估测试了模型的自我意识、事件记忆检索和关系跟踪能力，涵盖了参数化和非参数化方法。在 Llama3.1-8B、GPT-4-turbo 和 DeepSeek R1 模型上进行的实验表明，非参数化方法在处理有状态学习方面显著优于参数化方法。然而，所有模型在交互时间延长时都表现出灾难性遗忘的挑战，突显了进一步在终身学习方面的必要进步。