LLM2D

摘要

尽管语言模型得分通常被视为概率，但它们作为概率估计器的可靠性主要通过校准来研究，而忽略了其他方面。特别是，尚不清楚语言模型是否针对不同的词跨度联合概率分配方式产生相同的值。我们的工作引入了一个新的框架，ConTestS（跨度一致性测试），它涉及统计测试以评估可互换完成和条件顺序之间的得分一致性。我们对发布后真实数据和合成数据进行了实验，以消除训练效果。我们的发现表明，掩码语言模型 (MLMs) 和自回归模型都表现出不一致的预测，自回归模型显示出更大的差异。更大的 MLMs 往往产生更一致的预测，而自回归模型则显示出相反的趋势。此外，对于两种模型类型，预测熵提供了对真实词跨度似然的见解，因此可以帮助选择最佳解码策略。我们的分析揭示的不一致性，以及它们与预测熵和模型类型之间的差异的联系，可以作为未来研究解决这些局限性的有用指南。