摘要
arXiv:2504.02902v1 类型: cross
摘要: 大型语言模型(LLMs)展示了惊人的自我改进能力,模型通过自我生成的反馈反复修订其输出。尽管这种反思机制在提升任务性能方面显示出前景,但最近的研究表明,它也可能引入不良偏见—最显著的是自我偏见,即LLMs倾向于偏好其自身先前的输出。在本研究中,我们进一步探讨了这种自我改进对置信度估计的影响。我们评估了三种代表性自我改进范式:基本提示、思维链(CoT)提示以及基于调优的方法,并发现迭代自我改进可能导致系统性过自信,这通过持续增加的预期校准误差(ECE)和高置信度下的较低准确性得以体现。然后,我们进一步探索了置信度校准技术与自我改进的整合。具体而言,我们比较了三种策略:(1)在多轮自我改进之后应用校准,(2)在自我改进之前进行校准,以及(3)在每个自我改进步骤中迭代应用校准。我们的结果显示,迭代校准在降低ECE方面最有效,提供了更好的校准。我们的工作首次从置信度校准的角度研究自我改进的LLMs,为平衡模型性能和可靠性提供了宝贵的见解。