LLM2D

摘要

大型视觉语言模型在预测多个人类标注者提供的答案，尤其是当这些答案表现出人类的不确定性时，常常难以准确地预测。本研究重点关注视觉问答 (VQA) 任务，并全面评估了最先进的视觉语言模型与人类回答分布的相关性。为此，我们根据样本在不同意意见中的人类不确定性水平（低、中、高）对样本进行分类，并不仅使用准确率，还使用三个新的与人类相关的 VQA 度量指标，来调查 HUD 的影响。为了使模型更好地与人类对齐，我们还验证了常见校准和人类校准的效果。我们的结果表明，即使是 BEiT3，目前该任务中最好的模型，也难以捕捉到人类回答多样性所固有的多标签分布。此外，我们观察到常用的以准确率为导向的校准技术会对 BEiT3 捕捉 HUD 的能力产生不利影响，进一步加大了模型预测与人类分布之间的差距。相反，我们展示了将模型校准到人类分布以进行 VQA 的好处，使模型置信度与人类不确定性更好地对齐。我们的发现表明，对于 VQA，人类回答与模型预测之间的一致性对齐是研究不足的，应该成为未来研究的下一个关键目标。