LLM2D
DEAN:通过停用耦合神经元来缓解大型语言模型中的公平性-隐私冲突
DEAN: Deactivating the Coupled Neurons to Mitigate Fairness-Privacy Conflicts in Large Language Models
作者: Chen Qian, Dongrui Liu, Jie Zhang, Yong Liu, Jing Shao
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.16672v1

摘要

确保大型语言模型(LLM)的公平性和隐私性至关重要。有趣的是,我们发现了一个反直觉的权衡现象:通过监督微调(SFT)方法增强LLM的隐私意识会显著降低其公平意识,即使样本数量达到数千个。为了解决这个问题,受信息论的启发,我们引入了一种免训练的方法来停用公平性和隐私耦合神经元(DEAN),该方法在理论上和经验上都降低了公平性和隐私意识之间的互信息。大量的实验结果表明,DEAN消除了这种权衡现象,并显著提高了LLM的公平性和隐私意识,例如,将Qwen-2-7B-Instruct的公平意识提高了12.2%,隐私意识提高了14.0%。更重要的是,DEAN在标注数据有限甚至只有恶意微调数据可用时仍然保持稳健和有效,而SFT方法在这种情况下可能无法正常工作。我们希望这项研究能够为同时解决LLM中的公平性和隐私问题提供宝贵的见解,并可以集成到全面的框架中,以开发更道德和负责任的AI系统。我们的代码可在\url{https://github.com/ChnQ/DEAN}获取。