LLM2D
基于梅塔ropolis-哈特نغ采样游戏:通过去中心化贝叶斯推断融合视线语言模型的知识
Metropolis-Hastings Captioning Game: Knowledge Fusion of Vision Language Models via Decentralized Bayesian Inference
作者: Yuta Matsui, Ryosuke Yamaki, Ryo Ueda, Seitaro Shinagawa, Tadahiro Taniguchi
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09620v1

摘要

arXiv:2504.09620v1 类别:交叉 摘要:我们提出了Metropolis-Hastings图咏(MHCG)方法,这是一种通过互相学习来融合多种视觉-语言模型(VLM)知识的方法。尽管现有结合多个模型的方法会受到推理成本和架构限制的影响,但MHCG通过一个类似语言游戏的过程进行去中心化的贝叶斯推理,从而避免了这些问题。知识融合过程通过交替地为图像进行图咏并从中相互学习建立了两个VLM代理之间的沟通。我们使用两个在不同数据集上进行预训练的VLM进行了两次图像-图咏实验。第一个实验表明,MHCG在免参考评估指标上实现了一致的改进。第二个实验探讨了MHCG如何通过观察生成的图咏中词汇的出现而促进VLMs类别级别词汇的共享。