LLM2D

摘要

arXiv:2505.09591v1 交叉类型: cross 摘要: 尽管在多模态视觉问答（VQA）模型方面取得了显著进展，但由于模型往往过于自信且偏差，尤其是在离分布（OOD）设置中，可靠性问题仍然较为严重。对于单模态模型，已经做了大量工作来解决这些问题，但在多模态情况下却很少有相关工作。在这里，我们通过提出一种变分VQA方法来解决多模态模型的不可靠性问题。具体而言，我们并未使用AdamW 对视觉-语言模型进行微调，而是采用了一种最近提出的变分算法IVON，该算法提供了一个模型参数的后验分布。通过广泛的实验，我们证明了我们的方法在不牺牲AdamW 准确性的前提下，提高了校准和弃权。例如，与AdamW 微调相比，我们相对于AdamW 基准减少了超过50%的预期校准误差，且在固定风险为1%的情况下，覆盖率提高了4%相较于SOTA（最佳）。当50%的测试案例为OOD时，在分布转换的情况下，性能提升更加显著，实现了相较于SOTA在1%风险下的8%覆盖率改进。总体而言，我们展示了变分学习作为一种增强多模态模型可靠性的可行方法。