LLM2D

摘要

近年来，事实核查领域的研究重点关注模型从网络检索证据以判断陈述真伪的现实场景。该流程中的瓶颈在于检索相关证据：传统方法可能提供与陈述直接相关的文档，但核查复杂陈述需要更多推断。例如，一篇关于疫苗开发过程的文档与关于疫苗可能包含成分的陈述相关，即使它没有直接提及这些成分。我们提出了对比事实核查重排序器（CFR），这是一种针对此场景的改进型检索器。通过利用 AVeriTeC 数据集，该数据集对陈述的子问题进行了标注，并提供了来自证据文档的人工编写答案，我们使用对比目标微调了 Contriever，该目标基于多种训练信号，包括来自 GPT-4 的蒸馏、子问题答案评估以及数据集中的黄金标签。我们在检索和关于陈述的端到端真伪判断方面评估了我们的模型。在 AVeriTeC 数据集上，我们发现真伪分类准确率提高了 6%。我们还表明，我们的收益可以迁移到 FEVER、ClaimDecomp、HotpotQA 和一个需要检索器进行推断的合成数据集上。