摘要
近年来,大型语言模型(LLM)在与人类偏好对齐方面取得了令人鼓舞的进展。LLM 赋能的决策系统预计将具有可预测性、可靠性和可信度,这意味着它们必须不受可能损害其信誉和有效性的悖论或矛盾的影响。然而,LLM 在做出决策或判断时仍然表现出不一致和偏见的行为。在这项工作中,我们专注于研究 LLM 的逻辑一致性,将其视为构建更可靠和可信系统的先决条件。逻辑一致性确保决策基于对问题的稳定和连贯的理解,从而降低了出现不稳定或矛盾输出的风险。我们首先提出一个通用框架,通过三个基本代理来量化逻辑一致性:传递性、交换性和否定不变性。然后,我们使用定义的指标评估了各种 LLM 的逻辑一致性,证明它可以作为整体鲁棒性的有力代理。此外,我们介绍了一种数据细化和增强技术,可以增强 LLM 的逻辑一致性,而不会牺牲与人类偏好的对齐。它通过使用排序聚合方法来估计部分或完全排序的偏好排名,从而增强了嘈杂和稀疏的成对比较注释。最后,我们表明逻辑一致性会影响基于 LLM 的依赖逻辑算法的性能,其中 LLM 充当逻辑运算符。