LLM2D

摘要

arXiv:2502.07072v2 宣告类型: cross 摘要：有关大型语言模型（LLMs）的惊人成就的消息每天都有，同样每天也有关于它们挑战的消息。LLMs 以其数据集中的偏见而闻名，导致诸如毒性等问题。尽管已经采用了领域适应性培训来减轻这些问题，但这些技术经常在修复过程中不分青红皂白地处理所有模型参数，导致修复质量差和模型灵活性降低。在本文中，我们提出了一种新颖的基于动态切片和意图感知的LLM修复策略IRepair。这种方法选择性地对模型中最易出错的部分进行修复。具体而言，我们提出动态切片模型的最敏感层，需要立即关注，将修复努力集中于这些区域。该方法通过改变较小部分模型，能够更有效地进行修复，同时可能对模型整体性能的影响较小。我们利用毒性缓解设置对GPT2和GPT-Neo家族的三个模型（参数范围从800M到1.6B）进行了评估。结果显示，IRepair的错误修复效果比最近的基线直接偏好优化提高了43.6%，同时对总体性能的干扰减少了46%。我们的实证分析还发现，错误在模型的较小部分中更为集中，前20%的层的错误密度比剩余的80%高773%。这突显了选择性修复的必要性。此外，我们展示了动态选择方法对于分散在模型中的错误至关重要，确保了修复的稳健性和效率。