LLM2D

摘要

arXiv:2502.13464v1 类别: cross 摘要: 常识合理性估计对于评估语言模型（LMs）至关重要，然而现有的生成方法依赖于概率或口头判断，难以进行细粒度的区分。本文提出了一种名为ComPaSS的新颖区分框架，通过测量在添加相关常识信息时语义的变化来量化常识合理性。可信的增强会导致最小的语义变化，而不可信的增强则会导致显著的偏离。在包括大型语言模型（LLMs）和多模态语言模型（VLMs）的不同架构下的两种细粒度常识合理性估计任务上的评估表明，ComPaSS在所有基线方法中表现更优。这表明，在细粒度常识合理性的评估中，区分方法优于生成方法的优势。实验还表明：(1) 当结合ComPaSS时，多模态语言模型（VLMs）在视觉导向的常识任务上的性能优于语言模型（LMs）。(2) 对比预训练能够增强骨干模型捕捉语义细微差别的能力，从而进一步提升ComPaSS的表现。