LLM2D

摘要

arXiv:2406.12645v3 通知类型: 交叉替换摘要：自动事实核查系统在可信度方面常常存在问题，因为它们生成的解释可以包含幻觉。在这项工作中，我们探索了事实核查解释生成中的证据归因。我们引入了一种新的评估协议——引证蒙版和恢复——来评估生成解释中的归因质量。我们利用人类注释者和自动注释者实现了该协议，并发现大型语言模型（LLM）的注释与人类注释相关，这表明归因评估可以实现自动化。最后，我们的实验揭示了以下两点：（1）表现最佳的LLM仍然生成带有不准确归因的解释；（2）精心挑选的证据对于生成更好的解释是必不可少的。代码和数据可在以下链接获取：https://github.com/ruixing76/Transparent-FCExp。