LLM2D

摘要

arXiv:2505.01997v1 宣称类型: cross 摘要：大型语言模型（LLMs）成功的关键技术之一是偏好对齐。然而，偏好对齐的一个显著副作用是校准不佳的问题：虽然预训练模型通常校准良好，但与人类偏好对齐后的LLMs往往会变得校准不佳。在本文中，我们研究了偏好对齐如何影响校准，并探讨如何解决这一问题。对于第一个问题，我们观察到，偏好对齐中的偏好崩溃问题不幸地扩展到了校准场景，导致LLMs表现出过度自信和校准不佳。为了解决这一问题，我们证明了以特定领域知识进行微调的重要性，以缓解过度自信问题。为了进一步分析这是否影响模型的性能，我们将模型分为两类：可校准和不可校准，根据期望校准误差（ECE）的边界进行定义。在可校准领域，我们提出了一种校准感知的微调方法，在不损害LLMs性能的情况下实现适当的校准。然而，随着模型进一步微调以提高性能，它们进入了不可校准领域。为此情况，我们开发了一种基于EM算法的ECE正则化方法，用于微调损失，以保持低校准误差。大量实验验证了所提出方法的有效性。