LLM2D

摘要

多模态大型语言模型（MLLM）的自我改进对于增强其可靠性和鲁棒性至关重要。然而，当前的方法往往严重依赖MLLM自身作为评判标准，导致高昂的计算成本和奖励作弊以及模型崩溃等潜在缺陷。本文介绍了一种新颖的、模型级别的无评判者自我改进框架。我们的方法采用受控反馈机制，同时无需在验证循环中使用MLLM。我们使用可控幻觉机制生成偏好学习对，并利用轻量级的对比语言图像编码器来评估和必要时反转配对，从而优化数据质量。在公共基准测试和我们新引入的旨在挑战幻觉控制的IC数据集上的评估表明，我们的模型优于传统技术。我们在计算需求显著降低的情况下实现了更高的精度和召回率。这种方法为MLLM的可扩展自我改进提供了一条高效的途径，在性能提升与降低资源需求之间取得了平衡。