摘要
arXiv:2502.07340v1 类别: 多学科交叉
摘要:在指令调优阶段使用包含不熟悉知识的数据训练大规模语言模型(LLMs)会使LLMs变得过于自信并促进幻觉现象。为了解决这一挑战,我们提出了一个新颖的框架NOVA,该框架通过识别与LLMs所学习的知识匹配度高的高质量数据来减少幻觉。NOVA 包括内部一致性探针(ICP)和语义等价识别(SEI),以评估LLMs对指令数据的熟悉程度。具体而言,ICP 通过计算多个自动生成响应之间度身定制的一致性来评估LLMs对给定指令的理解。SEI 进一步通过将目标响应与生成的响应进行比较,使用提出的语义聚类和精心设计的投票策略来评估LLMs对目标响应的熟悉程度。最后,我们引入了一个专家对齐的奖励模型,考虑到除了熟悉度之外的其他特征以提高数据质量。通过考虑数据质量并避免使用不熟悉的数据,我们可以利用选择的数据有效地使LLMs遵循指令并减少幻觉。广泛的实验和分析显示,NOVA 显著减少了幻觉,并使LLMs保持了强大的遵循指令的能力。