LLM2D

摘要

arXiv:2504.19254v1 宣告类型: 跨领域摘要: 大型语言模型（LLMs）中存在幻觉这一持续性的问题。随着这些模型在高风险领域，如医疗和金融中的应用越来越多，有效幻觉检测的需求变得至关重要。为此，我们提出了一种适用于实际应用的多功能幻觉检测框架。为了实现这一目标，我们调整了多种现有的不确定性量化（UQ）技术，包括黑盒UQ、白盒UQ以及LLM作为裁判的技术，必要时将它们转化为标准化的响应级置信分数，范围从0到1。为了增加灵活性，我们引入了一种可调ensemble方法，可以结合任何一种个体置信分数的组合。这种方法使实践者能够针对特定用例优化ensemble，以提高性能。为了简化实现过程，本文的伴侣Python工具包UQLM提供了全套的评分器。为了评估各种评分器的性能，我们在多个LLM问答基准上进行了广泛的实验。我们发现，我们的可调ensemble通常超过了其个体组成部分，且优于现有的幻觉检测方法。我们的结果表明，定制化的幻觉检测策略有助于提高LLMs的准确性和可靠性。