LLM2D
C-FAITH:中文细粒度自动幻觉评估基准
C-FAITH: A Chinese Fine-Grained Benchmark for Automated Hallucination Evaluation
作者: Xu Zhang, Zhifei Liu, Jiahao Wang, Huixuan Zhang, Fan Xu, Junzhe Zhang, Xiaojun Wan
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.10167v1

摘要

arXiv:2504.10167v1 类别:交叉学科 摘要:尽管大型语言模型取得了快速进展,它们仍然高度容易生成幻觉,这极大地阻碍了它们的广泛应用。幻觉研究需要动态且精细的评估。然而,大多数现有的幻觉基准(尤其是中文语言领域)依赖于人工标注,这使得自动且成本效益高的幻觉评估变得颇具挑战性。为了解决这一问题,我们引入了HaluAgent,这是一种基于某些知识文档自动构建精细问答数据集的代理框架。我们的实验表明,手动设计的规则和提示优化可以提高生成数据的质量。使用HaluAgent,我们构建了从网络爬取获得的1,399份知识文档中构造而成的C-FAITH,共有60,702个项目。我们使用我们提出的C-FAITH全面评估了16种主流LLM,提供了详细的实验结果和分析。