摘要
arXiv:2502.13464v1 类别: cross
摘要: 常识合理性估计对于评估语言模型(LMs)至关重要,然而现有的生成方法依赖于概率或口头判断,难以进行细粒度的区分。本文提出了一种名为ComPaSS的新颖区分框架,通过测量在添加相关常识信息时语义的变化来量化常识合理性。可信的增强会导致最小的语义变化,而不可信的增强则会导致显著的偏离。在包括大型语言模型(LLMs)和多模态语言模型(VLMs)的不同架构下的两种细粒度常识合理性估计任务上的评估表明,ComPaSS在所有基线方法中表现更优。这表明,在细粒度常识合理性的评估中,区分方法优于生成方法的优势。实验还表明:(1) 当结合ComPaSS时,多模态语言模型(VLMs)在视觉导向的常识任务上的性能优于语言模型(LMs)。(2) 对比预训练能够增强骨干模型捕捉语义细微差别的能力,从而进一步提升ComPaSS的表现。