LLM2D

摘要

arXiv:2504.10167v1 类别：交叉学科摘要：尽管大型语言模型取得了快速进展，它们仍然高度容易生成幻觉，这极大地阻碍了它们的广泛应用。幻觉研究需要动态且精细的评估。然而，大多数现有的幻觉基准（尤其是中文语言领域）依赖于人工标注，这使得自动且成本效益高的幻觉评估变得颇具挑战性。为了解决这一问题，我们引入了HaluAgent，这是一种基于某些知识文档自动构建精细问答数据集的代理框架。我们的实验表明，手动设计的规则和提示优化可以提高生成数据的质量。使用HaluAgent，我们构建了从网络爬取获得的1,399份知识文档中构造而成的C-FAITH，共有60,702个项目。我们使用我们提出的C-FAITH全面评估了16种主流LLM，提供了详细的实验结果和分析。