摘要
arXiv:2502.05825v1 类型: cross
摘要:大型语言模型(LLMs)在自然语言处理方面展现了强大的能力,但在生成事实错误或伪造内容方面仍然容易出现幻觉。这一问题削弱了它们的可靠性,特别是在医疗保健和法律咨询等高风险领域。为了解决这一挑战,我们提出了一种名为Delta的推理时方法,该方法可以在不需重新训练模型或增加额外数据的情况下减少幻觉。Delta通过随机遮挡输入提示的部分内容,并对比原始输入和遮挡输入的输出分布,有效地通过仅推理计算来抑制幻觉。我们在上下文丰富的问答基准上评估了Delta,分别在SQuAD v1.1和v2上实现了约3和6个百分点的绝对改进,并在TriviaQA和Natural Questions下采样解码上分别达到了7和2个百分点的改进。Delta还在SQuAD v2上提高了无答案精确匹配分数超过10个百分点,表明其在减少由上下文歧义引起的幻觉方面具有有效性。这些结果突显了Delta作为一种计算效率高且可扩展的方法,在实际应用中提高LLM可靠性的潜力。