LLM2D
AIDE:由领域专家代理提升视觉语言模型
AIDE: Agentically Improve Visual Language Model with Domain Experts
作者: Ming-Chang Chiu, Fuxiao Liu, Karan Sapra, Andrew Tao, Yaser Jacoob, Xuezhe Ma, Zhiding Yu, Guilin Liu
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.09051v1

摘要

arXiv:2502.09051v1 类型: cross 摘要:视觉语言模型(VLMs)的传统增强依赖于从更大、更强大的模型中进行知识蒸馏。这种依赖性为改进最先进的系统创造了一个基本瓶颈,特别是在没有更优模型的情况下。我们引入了AIDE(Agentic Improvement through Domain Experts,通过领域专家的自主改进),这是一种新颖的框架,使VLMs能够通过利用专业领域专家模型自主提升其能力。AIDE 通过一个四阶段过程运作:(1) 识别需要改进的实例,(2) 雇佣领域专家进行目标分析,(3) 结合专家输出与现有数据,以及 (4) 将增强的实例集成到训练管道中。在多个基准上的实验,包括MMMU、MME、MM Bench等,证明了AIDE在无需依赖更大规模的VLMs和人工监督的情况下,能够实现显著的性能提升。我们的框架提供了一种可扩展、资源高效的方法来持续改进VLMs,解决了当前方法论的关键限制,特别是在无法访问更大规模模型的情况下尤为有价值。