LLM2D

摘要

arXiv:2504.00031v1 类型: cross 摘要: 为了有效地将大型语言模型（LLMs）部署到特定应用场景中，通常会应用微调技术来增强其在专门任务上的性能。这一过程往往涉及使用用户数据进行微调，而这些用户数据可能包含敏感信息。尽管不被推荐，但用户在消息中发送密码的情况并非罕见，如果在微调模型时使用这些数据，可能会导致密码泄露。在本研究中，使用了低秩适应（LoRA）技术对客户支持数据和来自RockYou密码字典的密码进行了微调。从密码列表前200个密码中，有37个被成功恢复。进一步地，因果追踪表明密码信息主要集中在少数几层。最后，使用了一种名为单秩模型编辑（ROME）的技术从模型中移除密码信息，结果使得被恢复的密码数量从37降至0。