LLM2D
Leaking LoRa:大规模语言模型中的密码泄露和知识存储评估
Leaking LoRa: An Evaluation of Password Leaks and Knowledge Storage in Large Language Models
作者: Ryan Marinelli, Magnus Eckhoff
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00031v1

摘要

arXiv:2504.00031v1 类型: cross 摘要: 为了有效地将大型语言模型(LLMs)部署到特定应用场景中,通常会应用微调技术来增强其在专门任务上的性能。这一过程往往涉及使用用户数据进行微调,而这些用户数据可能包含敏感信息。尽管不被推荐,但用户在消息中发送密码的情况并非罕见,如果在微调模型时使用这些数据,可能会导致密码泄露。在本研究中,使用了低秩适应(LoRA)技术对客户支持数据和来自RockYou密码字典的密码进行了微调。从密码列表前200个密码中,有37个被成功恢复。进一步地,因果追踪表明密码信息主要集中在少数几层。最后,使用了一种名为单秩模型编辑(ROME)的技术从模型中移除密码信息,结果使得被恢复的密码数量从37降至0。