LLM2D

摘要

arXiv:2411.05980v2 宣告类型: 交叉替换摘要：大型语言模型（LLMs）在语言生成和理解方面表现出令人印象深刻的能力强项，但它们倾向于产生虚构内容并生成事实错误信息，这是其一个关键限制。为了验证大型语言模型生成的内容和来自其他来源的声明，传统的验证方法往往依赖于整体模型，为复杂的声明分配一个单一的事实标签，这可能会掩盖细微的错误。在本文中，我们提倡转向精细化验证，即将复杂的声明拆分为较小的子声明，进行个别验证，从而能够更精确地识别不准确性，提高透明度，并减少证据检索中的模糊性。然而，生成子声明也带来了一些挑战，如保持上下文和在原声明方面确保语义等价。我们引入了FactLens，这是一个用于评估精细化事实验证的标准，包含评估子声明质量的指标和自动评估器。基准数据由人工精挑细选，以确保高质量的地面真值。我们的结果显示，自动FactLens评估器与人类判断之间存在一致，我们还讨论了子声明特征对整体验证性能的影响。