摘要
arXiv:2502.11962v1 类型: cross
摘要:指令微调(IFT)可以增强大型语言模型(LLMs)的有用性,但可能会降低其真实性。这一权衡关系源于IFT促使LLMs生成在预训练过程中未充分覆盖的长尾知识,从而在处理未见过的任务时产生更有信息量但更不真实的答案。在本文中,我们实证证明了IFT中有用性-真实性权衡的存在,并提出了$\textbf{UNIT}$,一种新的IFT范式来解决这一问题。UNIT促使LLMs识别自身的不确定性,并在响应的结尾明确反映这种不确定性。实验结果表明,经过UNIT微调的模型在保持有用性的同时,能够区分确定性和不确定性陈述,从而减少幻觉现象。