摘要
arXiv:2504.19254v2 宣告类型: replace-cross
摘要:幻觉是大型语言模型(LLMs)的一个持续性问题。随着这些模型在如医疗保健和金融等高风险领域的使用日益增多,有效的幻觉检测变得至关重要。为此,我们提出了一种通用框架,可让从业者将其应用于实际应用场景中的幻觉检测。为了实现这一目标,我们对各种现有的不确定性量化(UQ)技术进行了调整,包括黑盒不确定性量化、白盒不确定性量化和LLM-as-a-Judge,必要时将它们转化为标准化的从0到1的主题置信分数。为了增强灵活性,我们引入了一个可调集成方法,可以结合任何一个个体置信分数的组合。这种方法使从业者能够针对特定应用场景优化集成方法,从而提高性能。为了简化实现过程,本文附带提供了一个名为UQLM的Python工具包,其中包括全套评分器。我们通过使用多个LLM问答基准进行大量实验,评估了各种评分器的性能。我们发现,我们的可调集成通常优于其个体组件,且优于现有的幻觉检测方法。我们的结果表明,定制化的幻觉检测策略可以提高LLMs的准确性和可靠性。