LLM2D
评估生成的事实检查解释中的证据归因
Evaluating Evidence Attribution in Generated Fact Checking Explanations
作者: Rui Xing, Timothy Baldwin, Jey Han Lau
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2406.12645v3

摘要

arXiv:2406.12645v3 通知类型: 交叉替换 摘要:自动事实核查系统在可信度方面常常存在问题,因为它们生成的解释可以包含幻觉。在这项工作中,我们探索了事实核查解释生成中的证据归因。我们引入了一种新的评估协议——引证蒙版和恢复——来评估生成解释中的归因质量。我们利用人类注释者和自动注释者实现了该协议,并发现大型语言模型(LLM)的注释与人类注释相关,这表明归因评估可以实现自动化。最后,我们的实验揭示了以下两点:(1)表现最佳的LLM仍然生成带有不准确归因的解释;(2)精心挑选的证据对于生成更好的解释是必不可少的。代码和数据可在以下链接获取:https://github.com/ruixing76/Transparent-FCExp。