LLM2D

摘要

arXiv:2504.12996v1 宣传类型: cross 摘要：大型语言模型（LLMs）在训练过程中经常记忆敏感信息，这在部署公共可访问模型时带来了风险。当前的机器忘记方法难以在不削弱模型整体能力的情况下选择性地移除特定数据关联。本文介绍了我们在SemEval-2025任务4中针对目标性遗忘所提出的方法，该方法结合了因果中介分析与层特定优化的两阶段方法。通过在OLMo架构（1B和7B参数）上进行系统因果追踪实验，我们发现前几个Transformer层（第0到第5层）在MPL模块中存储主体属性关联方面起着关键作用。基于这一洞察，我们开发了一种受限优化方法，在冻结较高层的同时，对较低层应用一项新颖的联合损失函数，以通过输出token交叉熵惩罚最大化遗忘集损失，同时通过自适应正则化最小化保留集偏差。我们的方法在1B模型轨道中获得第二名，展示了强大的任务性能，同时保持了88%的基线MMLU准确性。这些结果确立了因果导向的层优化作为在LLMs中实现高效、精确遗忘的有前途范式的地位，并为解决AI系统中的数据隐私问题提供了一个重要的进步。