LLM2D

摘要

arXiv:2504.06659v1 宣布类型: cross 摘要：尽管在大规模语言模型（LLMs）的偏好对齐（PA）方面取得了进展，主流方法如人类反馈强化学习（RLHF）仍然面临显著挑战。这些方法要求高质量的正面偏好示例数据集，获取这些数据集既昂贵又计算密集，因为训练不稳定，这限制了它们在低资源场景中的应用。LLM去学习技术提供了一种有前景的替代方案，通过直接去除负面示例的影响。然而，当前的研究主要集中在经验验证上，缺乏系统的定量分析。为填补这一空白，我们提出了一个框架来探讨偏好对齐与LLM去学习之间的关系。具体来说，我们引入了一种基于多层优化的方法来量化移除特定负面示例对偏好对齐性能的影响。我们的分析表明，并非所有负面示例在去学习后都对对齐改进贡献相同，且效果在示例之间存在显著差异。基于这一洞察，我们提出一个关键问题：如何以优化的方式选择和加权负面示例进行去学习，以最大化偏好对齐性能？为了回答这个问题，我们提出了一种名为Unlearning to Align（U2A）的框架，利用多层优化来高效选择和去学习示例，以实现最优的偏好对齐性能。我们通过大量实验验证了所提出的方法，结果证实了其有效性。