LLM2D

摘要

尽管近期研究不断展示大型语言模型（LLMs）的卓越能力，但直面其隐藏的缺陷至关重要。其中，记忆问题尤为突出，带来了重大的伦理和法律风险。本文对 LLMs 中的记忆问题进行了系统化知识梳理 (SoK)。记忆是指模型倾向于存储和复制训练数据中的短语或段落，已被证明是针对 LLMs 的各种隐私和安全攻击的核心问题。我们首先概述了关于记忆的文献，从五个关键维度对其进行了探讨：意图性、程度、可检索性、抽象性和透明度。接下来，我们讨论了用于衡量记忆的指标和方法，并分析了导致记忆现象的因素。然后，我们研究了记忆如何在特定模型架构中表现出来，并探索了减轻这些影响的策略。最后，我们通过确定未来研究的潜在课题来总结我们的概述：开发在 LLMs 中平衡性能和隐私的方法，以及分析特定环境下的记忆，包括对话式代理、检索增强生成、多语言语言模型和扩散语言模型。