LLM2D

摘要

arXiv:2504.09620v1 类别：交叉摘要：我们提出了Metropolis-Hastings图咏（MHCG）方法，这是一种通过互相学习来融合多种视觉-语言模型（VLM）知识的方法。尽管现有结合多个模型的方法会受到推理成本和架构限制的影响，但MHCG通过一个类似语言游戏的过程进行去中心化的贝叶斯推理，从而避免了这些问题。知识融合过程通过交替地为图像进行图咏并从中相互学习建立了两个VLM代理之间的沟通。我们使用两个在不同数据集上进行预训练的VLM进行了两次图像-图咏实验。第一个实验表明，MHCG在免参考评估指标上实现了一致的改进。第二个实验探讨了MHCG如何通过观察生成的图咏中词汇的出现而促进VLMs类别级别词汇的共享。