摘要
arXiv:2504.10167v1 类别:交叉学科
摘要:尽管大型语言模型取得了快速进展,它们仍然高度容易生成幻觉,这极大地阻碍了它们的广泛应用。幻觉研究需要动态且精细的评估。然而,大多数现有的幻觉基准(尤其是中文语言领域)依赖于人工标注,这使得自动且成本效益高的幻觉评估变得颇具挑战性。为了解决这一问题,我们引入了HaluAgent,这是一种基于某些知识文档自动构建精细问答数据集的代理框架。我们的实验表明,手动设计的规则和提示优化可以提高生成数据的质量。使用HaluAgent,我们构建了从网络爬取获得的1,399份知识文档中构造而成的C-FAITH,共有60,702个项目。我们使用我们提出的C-FAITH全面评估了16种主流LLM,提供了详细的实验结果和分析。