摘要
arXiv:2502.07340v2 通告类型: replace-cross
摘要:在指令调整阶段使用包含不熟悉知识的数据训练语言模型可能会导致幻觉。为了解决这一挑战,我们引入了NOVA,这是一个新颖的框架,旨在识别与语言模型学习的知识高度一致的高质量数据,以减少幻觉。NOVA 包括内部一致性探针 (ICP) 和语义等价识别 (SEI),用于衡量语言模型对指令数据的熟悉程度。具体而言,ICP 通过计算多个自动生成响应之间的定制一致性来评估语言模型对给定指令的理解。SEI 进一步通过将其与生成的响应进行比较,使用提出的语义聚类和精心设计的投票策略来评估语言模型对目标响应的熟悉程度。最后,为了确保所选样本的质量,我们引入了一个专家对齐的奖励模型,考虑到超越熟悉度的特性。通过考虑数据质量并避免使用不熟悉的数据,我们可以利用选定的数据有效对齐语言模型以遵循指令并减少幻觉。