LLM2D

摘要

arXiv:2502.07072v1 交叉公告类型摘要：每天我们都会听到大型语言模型（LLMs）的惊人成就，同样，我们也会听到它们所面临的挑战。LLMs 对其数据集中的偏见非常敏感，这导致了诸如毒性等问题。尽管已经采用了领域适应性训练来缓解这些问题，但在修理过程中，这些技术往往会不分青红皂白地调整所有模型参数，导致修理质量较差，降低了模型的灵活性。在本文中，我们介绍了一种新颖的动态切片基于意图感知的LLM修理策略，IRepair。这种方法针对模型中最易出错的部分进行选择性的修理。具体而言，我们建议动态切割模型中需要立即关注的最敏感层，并集中在那些区域进行修复。这种方法通过调整较小的部分模型，可以在不影响模型整体性能的情况下，实现更有效的修复。我们在毒性缓解设置中对来自GPT2和GPT-Neo家族的三个模型（参数范围从800M到1.6B）评估了我们的方法。我们的结果显示，IRepair在修复错误方面比最近的基线直接偏好优化技术有效43.6%，扰乱一般性能比例减少了46%。我们的实证分析还表明，错误在模型的较小部分中更为集中，并且排名前20%的层的错误密度比剩余80%的层高出773%。这强调了选择性修理的必要性。此外，我们还展示了动态选择方法对于分散在模型中的错误至关重要，以确保修复的稳健性和效率。