LLM2D

摘要

大型语言模型 (LLM) 在工业界和学术界被广泛用于各种任务，但评估生成文本响应的一致性仍然是一个挑战。传统的指标如 ROUGE 和 BLEU 与人类判断的相关性较弱。使用自然语言推理 (NLI) 的更复杂指标已经显示出改进的相关性，但它们实施起来很复杂，由于跨域泛化能力差，需要特定领域的训练，并且缺乏可解释性。最近，使用 LLM 作为评估者的基于提示的指标出现了；虽然它们更容易实现，但它们仍然缺乏可解释性，并且依赖于特定于任务的提示，这限制了它们的泛化能力。这项工作介绍了使用 LLM 的自动可解释一致性评估 (AXCEL)，这是一个基于提示的一致性指标，它通过提供详细的推理并指出不一致的文本跨度来为一致性得分提供解释。AXCEL 也是一个可泛化的指标，可以在不更改提示的情况下应用于多个任务。在摘要中，AXCEL 在检测不一致方面比非提示和基于提示的最先进 (SOTA) 指标高出 8.7%，在自由文本生成中高出 6.2%，在数据到文本转换任务中高出 29.4%。我们还评估了底层 LLM 对基于提示的指标性能的影响，并使用最新的 LLM 重新校准了 SOTA 基于提示的指标，以便进行公平比较。此外，我们证明了 AXCEL 使用开源 LLM 表现出强大的性能。