摘要
arXiv:2502.04602v1 交叉类型: cross
摘要:将大型语言模型(LLMs)与人类价值观和偏好对齐,通常通过基于人类反馈的微调来实现,这对于确保安全和负责任的AI行为至关重要。然而,这个过程通常需要大量的数据和计算资源。最近的研究揭示,通过更简单的方法,如上下文学习,可能以较低的成本实现对齐。这引发了问题:对齐是否主要是表面性的?在这篇文章中,我们探讨了这个问题,并进行了定量分析。我们将表面知识的概念形式化,定义为可以通过简单的标记重新排列获得的知识,而不影响模型捕捉标记之间潜在因果关系的能力。我们提出了一种方法,从对齐模型中提取和隔离表面知识,重点是浅层修改最终标记选择过程。通过将仅增加载体表面知识的模型与完全对齐的模型进行比较,我们量化了对齐中的表面部分。我们的研究发现,虽然表面知识在对齐中占据显著部分,尤其是在安全性和去毒任务中,但这并不全是故事。需要推理和上下文理解的任务仍然依赖于更深层次的知识。此外,我们展示了孤立的表面知识的两个实际优势:(1)它可以被模型之间转移,使较大的模型能够通过从小模型中提取的表面知识实现高效的离线对齐;(2)它是可恢复的,允许在不影响性能的情况下恢复受损模型的对齐。