LLM2D

摘要

arXiv:2502.07340v1 类别: 多学科交叉摘要：在指令调优阶段使用包含不熟悉知识的数据训练大规模语言模型（LLMs）会使LLMs变得过于自信并促进幻觉现象。为了解决这一挑战，我们提出了一个新颖的框架NOVA，该框架通过识别与LLMs所学习的知识匹配度高的高质量数据来减少幻觉。NOVA 包括内部一致性探针（ICP）和语义等价识别（SEI），以评估LLMs对指令数据的熟悉程度。具体而言，ICP 通过计算多个自动生成响应之间度身定制的一致性来评估LLMs对给定指令的理解。SEI 进一步通过将目标响应与生成的响应进行比较，使用提出的语义聚类和精心设计的投票策略来评估LLMs对目标响应的熟悉程度。最后，我们引入了一个专家对齐的奖励模型，考虑到除了熟悉度之外的其他特征以提高数据质量。通过考虑数据质量并避免使用不熟悉的数据，我们可以利用选择的数据有效地使LLMs遵循指令并减少幻觉。广泛的实验和分析显示，NOVA 显著减少了幻觉，并使LLMs保持了强大的遵循指令的能力。