摘要
多模态大型语言模型(MLLM)的自我改进对于增强其可靠性和鲁棒性至关重要。然而,当前的方法往往严重依赖MLLM自身作为评判标准,导致高昂的计算成本和奖励作弊以及模型崩溃等潜在缺陷。本文介绍了一种新颖的、模型级别的无评判者自我改进框架。我们的方法采用受控反馈机制,同时无需在验证循环中使用MLLM。我们使用可控幻觉机制生成偏好学习对,并利用轻量级的对比语言图像编码器来评估和必要时反转配对,从而优化数据质量。在公共基准测试和我们新引入的旨在挑战幻觉控制的IC数据集上的评估表明,我们的模型优于传统技术。我们在计算需求显著降低的情况下实现了更高的精度和召回率。这种方法为MLLM的可扩展自我改进提供了一条高效的途径,在性能提升与降低资源需求之间取得了平衡。