LLM2D

摘要

确保大型语言模型（LLM）的公平性和隐私性至关重要。有趣的是，我们发现了一个反直觉的权衡现象：通过监督微调（SFT）方法增强LLM的隐私意识会显著降低其公平意识，即使样本数量达到数千个。为了解决这个问题，受信息论的启发，我们引入了一种免训练的方法来停用公平性和隐私耦合神经元（DEAN），该方法在理论上和经验上都降低了公平性和隐私意识之间的互信息。大量的实验结果表明，DEAN消除了这种权衡现象，并显著提高了LLM的公平性和隐私意识，例如，将Qwen-2-7B-Instruct的公平意识提高了12.2%，隐私意识提高了14.0%。更重要的是，DEAN在标注数据有限甚至只有恶意微调数据可用时仍然保持稳健和有效，而SFT方法在这种情况下可能无法正常工作。我们希望这项研究能够为同时解决LLM中的公平性和隐私问题提供宝贵的见解，并可以集成到全面的框架中，以开发更道德和负责任的AI系统。我们的代码可在\url{https://github.com/ChnQ/DEAN}获取。