LLM2D
FactLens:细粒度事实验证基准测试
FactLens: Benchmarking Fine-Grained Fact Verification
作者: Kushan Mitra, Dan Zhang, Sajjadur Rahman, Estevam Hruschka
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2411.05980v2

摘要

arXiv:2411.05980v2 宣告类型: 交叉替换 摘要:大型语言模型(LLMs)在语言生成和理解方面表现出令人印象深刻的能力强项,但它们倾向于产生虚构内容并生成事实错误信息,这是其一个关键限制。为了验证大型语言模型生成的内容和来自其他来源的声明,传统的验证方法往往依赖于整体模型,为复杂的声明分配一个单一的事实标签,这可能会掩盖细微的错误。在本文中,我们提倡转向精细化验证,即将复杂的声明拆分为较小的子声明,进行个别验证,从而能够更精确地识别不准确性,提高透明度,并减少证据检索中的模糊性。然而,生成子声明也带来了一些挑战,如保持上下文和在原声明方面确保语义等价。我们引入了FactLens,这是一个用于评估精细化事实验证的标准,包含评估子声明质量的指标和自动评估器。基准数据由人工精挑细选,以确保高质量的地面真值。我们的结果显示,自动FactLens评估器与人类判断之间存在一致,我们还讨论了子声明特征对整体验证性能的影响。