LLM2D
带有不确定性意识的指令微调以导航帮助性-真实性权衡
Navigating the Helpfulness-Truthfulness Trade-Off with Uncertainty-Aware Instruction Fine-Tuning
作者: Tianyi Wu, Jingwei Ni, Bryan Hooi, Jiaheng Zhang, Elliott Ash, See-Kiong Ng, Mrinmaya Sachan, Markus Leippold
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11962v1

摘要

arXiv:2502.11962v1 类型: cross 摘要:指令微调(IFT)可以增强大型语言模型(LLMs)的有用性,但可能会降低其真实性。这一权衡关系源于IFT促使LLMs生成在预训练过程中未充分覆盖的长尾知识,从而在处理未见过的任务时产生更有信息量但更不真实的答案。在本文中,我们实证证明了IFT中有用性-真实性权衡的存在,并提出了$\textbf{UNIT}$,一种新的IFT范式来解决这一问题。UNIT促使LLMs识别自身的不确定性,并在响应的结尾明确反映这种不确定性。实验结果表明,经过UNIT微调的模型在保持有用性的同时,能够区分确定性和不确定性陈述,从而减少幻觉现象。