LLM2D

摘要

arXiv:2504.05229v1 说明类型: 新摘要：可解释的自动事实核查（AFC）领域的目标是通过提供清晰易懂的解释来增强自动化事实验证系统的透明度和可信度。然而，这些解释的有效性取决于它们的实际可操作性——即它们的能力，能够赋能用户做出知情决策并减少误导信息。尽管实际可操作性是高质量解释的一个关键属性，但此前没有任何研究提出了专门评价这一属性的方法。本文介绍了一种名为FinGrAct的细粒度评估框架，它可以访问互联网，并且专门设计用于通过明确的标准和评估数据集来评估AFC解释的实际可操作性。FinGrAct超越了当前最先进的（SOTA）评估方法，在皮尔逊和肯德尔相关性上达到与人类判断最高的水平，同时显示出最低的以自我为中心的偏见，从而使其成为一种更稳健的实际可操作性评估方法。