LLM2D

摘要

用于辅助记者工作的计算方法通常需要将模型适应特定领域并生成解释。然而，大多数自动事实核查方法依赖于三类数据集，这些数据集无法准确反映现实世界中的错误信息。此外，事实核查解释通常基于证据的文本摘要生成，无法解决断言与证据之间的关系。为了解决这些问题，我们将通常用于自然语言推理 (NLI) 任务的自理性方法扩展到事实验证。我们提出了一种标签自适应学习方法：首先，我们微调模型以学习带注释标签的真实性预测（步骤 1 模型）。然后，我们再次微调步骤 1 模型以学习自理性，使用相同的数据和额外的带注释解释。我们的结果表明，我们的标签自适应方法在 PubHealth 和 AVeriTec 数据集上将真实性预测提高了十多个百分点（宏观 F1），优于 GPT-4 模型。此外，为了解决解释标注成本过高的问题，我们从三个大型语言模型生成了 64 个合成解释：GPT-4-turbo、GPT-3.5-turbo 和 Llama-3-8B，并对我们的步骤 1 模型进行了少量样本微调。少量样本合成解释微调模型的性能与完全微调的自理性模型相当，证明了使用合成数据的低成本学习的潜力。我们的标签自适应自理性方法为未来使用不同标签方案进行现实世界可解释事实核查的研究提供了一个有希望的方向。