LLM2D

摘要

arXiv:2504.02902v1 类型: cross 摘要: 大型语言模型（LLMs）展示了惊人的自我改进能力，模型通过自我生成的反馈反复修订其输出。尽管这种反思机制在提升任务性能方面显示出前景，但最近的研究表明，它也可能引入不良偏见—最显著的是自我偏见，即LLMs倾向于偏好其自身先前的输出。在本研究中，我们进一步探讨了这种自我改进对置信度估计的影响。我们评估了三种代表性自我改进范式：基本提示、思维链（CoT）提示以及基于调优的方法，并发现迭代自我改进可能导致系统性过自信，这通过持续增加的预期校准误差（ECE）和高置信度下的较低准确性得以体现。然后，我们进一步探索了置信度校准技术与自我改进的整合。具体而言，我们比较了三种策略：（1）在多轮自我改进之后应用校准，（2）在自我改进之前进行校准，以及（3）在每个自我改进步骤中迭代应用校准。我们的结果显示，迭代校准在降低ECE方面最有效，提供了更好的校准。我们的工作首次从置信度校准的角度研究自我改进的LLMs，为平衡模型性能和可靠性提供了宝贵的见解。