LLM2D
变分视觉问答
Variational Visual Question Answering
作者: Tobias Jan Wieczorek, Nathalie Daun, Mohammad Emtiyaz Khan, Marcus Rohrbach
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.09591v1

摘要

arXiv:2505.09591v1 交叉类型: cross 摘要: 尽管在多模态视觉问答(VQA)模型方面取得了显著进展,但由于模型往往过于自信且偏差,尤其是在离分布(OOD)设置中,可靠性问题仍然较为严重。对于单模态模型,已经做了大量工作来解决这些问题,但在多模态情况下却很少有相关工作。在这里,我们通过提出一种变分VQA方法来解决多模态模型的不可靠性问题。具体而言,我们并未使用AdamW 对视觉-语言模型进行微调,而是采用了一种最近提出的变分算法IVON,该算法提供了一个模型参数的后验分布。通过广泛的实验,我们证明了我们的方法在不牺牲AdamW 准确性的前提下,提高了校准和弃权。例如,与AdamW 微调相比,我们相对于AdamW 基准减少了超过50%的预期校准误差,且在固定风险为1%的情况下,覆盖率提高了4%相较于SOTA(最佳)。当50%的测试案例为OOD时,在分布转换的情况下,性能提升更加显著,实现了相较于SOTA在1%风险下的8%覆盖率改进。总体而言,我们展示了变分学习作为一种增强多模态模型可靠性的可行方法。