摘要
arXiv:2502.07072v1 交叉公告类型
摘要:每天我们都会听到大型语言模型(LLMs)的惊人成就,同样,我们也会听到它们所面临的挑战。LLMs 对其数据集中的偏见非常敏感,这导致了诸如毒性等问题。尽管已经采用了领域适应性训练来缓解这些问题,但在修理过程中,这些技术往往会不分青红皂白地调整所有模型参数,导致修理质量较差,降低了模型的灵活性。在本文中,我们介绍了一种新颖的动态切片基于意图感知的LLM修理策略,IRepair。这种方法针对模型中最易出错的部分进行选择性的修理。具体而言,我们建议动态切割模型中需要立即关注的最敏感层,并集中在那些区域进行修复。这种方法通过调整较小的部分模型,可以在不影响模型整体性能的情况下,实现更有效的修复。我们在毒性缓解设置中对来自GPT2和GPT-Neo家族的三个模型(参数范围从800M到1.6B)评估了我们的方法。我们的结果显示,IRepair在修复错误方面比最近的基线直接偏好优化技术有效43.6%,扰乱一般性能比例减少了46%。我们的实证分析还表明,错误在模型的较小部分中更为集中,并且排名前20%的层的错误密度比剩余80%的层高出773%。这强调了选择性修理的必要性。此外,我们还展示了动态选择方法对于分散在模型中的错误至关重要,以确保修复的稳健性和效率。