LLM2D

摘要

arXiv:2410.12222v3 宣告类型: replace-cross 摘要：幻觉在自然语言生成（NLG）中是一个热门话题。在实际应用中，不忠实的内容可能导致数据质量差或用户失去信任。因此，在采用NLG进行生产使用之前进行事实核查至关重要，这如果是人工进行的话会很昂贵。在本文中，我们研究了引导式NLG的自动化忠实性评估。我们开发了一种评分标准模板，并使用大型语言模型（LLMs）在量化尺度上对生成内容进行评分。我们将流行的LLMs以及广泛使用的自然语言推理（NLI）模型进行了比较，以评估质量和敏感性。此外，我们开发了生成合成不忠实数据的方法，以及量化幻觉比例的启发式方法。我们在4个旅游领域的行业数据集中进行的实验结果显示，GPT-4可以提供准确的判断和解释，判定源内容和生成内容是否事实一致。此外，我们发现，对合成数据进行NLI模型调优可以提高性能。最后，我们提出了部署此类系统的延迟和成本方面的见解。