LLM2D

摘要

arXiv:2502.09051v1 类型: cross 摘要：视觉语言模型（VLMs）的传统增强依赖于从更大、更强大的模型中进行知识蒸馏。这种依赖性为改进最先进的系统创造了一个基本瓶颈，特别是在没有更优模型的情况下。我们引入了AIDE（Agentic Improvement through Domain Experts，通过领域专家的自主改进），这是一种新颖的框架，使VLMs能够通过利用专业领域专家模型自主提升其能力。AIDE 通过一个四阶段过程运作：(1) 识别需要改进的实例，(2) 雇佣领域专家进行目标分析，(3) 结合专家输出与现有数据，以及 (4) 将增强的实例集成到训练管道中。在多个基准上的实验，包括MMMU、MME、MM Bench等，证明了AIDE在无需依赖更大规模的VLMs和人工监督的情况下，能够实现显著的性能提升。我们的框架提供了一种可扩展、资源高效的方法来持续改进VLMs，解决了当前方法论的关键限制，特别是在无法访问更大规模模型的情况下尤为有价值。