摘要
大型视觉语言模型在预测多个人类标注者提供的答案,尤其是当这些答案表现出人类的不确定性时,常常难以准确地预测。本研究重点关注视觉问答 (VQA) 任务,并全面评估了最先进的视觉语言模型与人类回答分布的相关性。为此,我们根据样本在不同意意见中的人类不确定性水平(低、中、高)对样本进行分类,并不仅使用准确率,还使用三个新的与人类相关的 VQA 度量指标,来调查 HUD 的影响。为了使模型更好地与人类对齐,我们还验证了常见校准和人类校准的效果。我们的结果表明,即使是 BEiT3,目前该任务中最好的模型,也难以捕捉到人类回答多样性所固有的多标签分布。此外,我们观察到常用的以准确率为导向的校准技术会对 BEiT3 捕捉 HUD 的能力产生不利影响,进一步加大了模型预测与人类分布之间的差距。相反,我们展示了将模型校准到人类分布以进行 VQA 的好处,使模型置信度与人类不确定性更好地对齐。我们的发现表明,对于 VQA,人类回答与模型预测之间的一致性对齐是研究不足的,应该成为未来研究的下一个关键目标。