LLM2D

摘要

arXiv:2504.19254v2 宣告类型: replace-cross 摘要：幻觉是大型语言模型（LLMs）的一个持续性问题。随着这些模型在如医疗保健和金融等高风险领域的使用日益增多，有效的幻觉检测变得至关重要。为此，我们提出了一种通用框架，可让从业者将其应用于实际应用场景中的幻觉检测。为了实现这一目标，我们对各种现有的不确定性量化（UQ）技术进行了调整，包括黑盒不确定性量化、白盒不确定性量化和LLM-as-a-Judge，必要时将它们转化为标准化的从0到1的主题置信分数。为了增强灵活性，我们引入了一个可调集成方法，可以结合任何一个个体置信分数的组合。这种方法使从业者能够针对特定应用场景优化集成方法，从而提高性能。为了简化实现过程，本文附带提供了一个名为UQLM的Python工具包，其中包括全套评分器。我们通过使用多个LLM问答基准进行大量实验，评估了各种评分器的性能。我们发现，我们的可调集成通常优于其个体组件，且优于现有的幻觉检测方法。我们的结果表明，定制化的幻觉检测策略可以提高LLMs的准确性和可靠性。