LLM2D
IRepair:一种基于意图的数据驱动错误修复方法在大规模语言模型中
IRepair: An Intent-Aware Approach to Repair Data-Driven Errors in Large Language Models
作者: Sayem Mohammad Imtiaz, Astha Singh, Fraol Batole, Hridesh Rajan
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07072v2

摘要

arXiv:2502.07072v2 宣告类型: cross 摘要:有关大型语言模型(LLMs)的惊人成就的消息每天都有,同样每天也有关于它们挑战的消息。LLMs 以其数据集中的偏见而闻名,导致诸如毒性等问题。尽管已经采用了领域适应性培训来减轻这些问题,但这些技术经常在修复过程中不分青红皂白地处理所有模型参数,导致修复质量差和模型灵活性降低。在本文中,我们提出了一种新颖的基于动态切片和意图感知的LLM修复策略IRepair。这种方法选择性地对模型中最易出错的部分进行修复。具体而言,我们提出动态切片模型的最敏感层,需要立即关注,将修复努力集中于这些区域。该方法通过改变较小部分模型,能够更有效地进行修复,同时可能对模型整体性能的影响较小。我们利用毒性缓解设置对GPT2和GPT-Neo家族的三个模型(参数范围从800M到1.6B)进行了评估。结果显示,IRepair的错误修复效果比最近的基线直接偏好优化提高了43.6%,同时对总体性能的干扰减少了46%。我们的实证分析还发现,错误在模型的较小部分中更为集中,前20%的层的错误密度比剩余的80%高773%。这突显了选择性修复的必要性。此外,我们展示了动态选择方法对于分散在模型中的错误至关重要,确保了修复的稳健性和效率。