LLM2D
针对对齐的大语言模型恢复校准:一种校准意识微调方法
Restoring Calibration for Aligned Large Language Models: A Calibration-Aware Fine-Tuning Approach
作者: Jiancong Xiao, Bojian Hou, Zhanliang Wang, Ruochen Jin, Qi Long, Weijie J. Su, Li Shen
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.01997v1

摘要

arXiv:2505.01997v1 宣称类型: cross 摘要:大型语言模型(LLMs)成功的关键技术之一是偏好对齐。然而,偏好对齐的一个显著副作用是校准不佳的问题:虽然预训练模型通常校准良好,但与人类偏好对齐后的LLMs往往会变得校准不佳。在本文中,我们研究了偏好对齐如何影响校准,并探讨如何解决这一问题。对于第一个问题,我们观察到,偏好对齐中的偏好崩溃问题不幸地扩展到了校准场景,导致LLMs表现出过度自信和校准不佳。为了解决这一问题,我们证明了以特定领域知识进行微调的重要性,以缓解过度自信问题。为了进一步分析这是否影响模型的性能,我们将模型分为两类:可校准和不可校准,根据期望校准误差(ECE)的边界进行定义。在可校准领域,我们提出了一种校准感知的微调方法,在不损害LLMs性能的情况下实现适当的校准。然而,随着模型进一步微调以提高性能,它们进入了不可校准领域。为此情况,我们开发了一种基于EM算法的ECE正则化方法,用于微调损失,以保持低校准误差。大量实验验证了所提出方法的有效性。