LLM2D
从1到5的尺度:在忠实性评估中量化幻觉
On A Scale From 1 to 5: Quantifying Hallucination in Faithfulness Evaluation
作者: Xiaonan Jing, Srinivas Billa, Danny Godbout
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2410.12222v3

摘要

arXiv:2410.12222v3 宣告类型: replace-cross 摘要:幻觉在自然语言生成(NLG)中是一个热门话题。在实际应用中,不忠实的内容可能导致数据质量差或用户失去信任。因此,在采用NLG进行生产使用之前进行事实核查至关重要,这如果是人工进行的话会很昂贵。在本文中,我们研究了引导式NLG的自动化忠实性评估。我们开发了一种评分标准模板,并使用大型语言模型(LLMs)在量化尺度上对生成内容进行评分。我们将流行的LLMs以及广泛使用的自然语言推理(NLI)模型进行了比较,以评估质量和敏感性。此外,我们开发了生成合成不忠实数据的方法,以及量化幻觉比例的启发式方法。我们在4个旅游领域的行业数据集中进行的实验结果显示,GPT-4可以提供准确的判断和解释,判定源内容和生成内容是否事实一致。此外,我们发现,对合成数据进行NLI模型调优可以提高性能。最后,我们提出了部署此类系统的延迟和成本方面的见解。