摘要
本文介绍了游戏化对抗式提示 (GAP) 框架,该框架通过众包收集高质量数据,用于大型多模态模型的视觉指令微调。GAP 将数据收集过程转变为一个引人入胜的游戏,激励玩家提供细致入微、具有挑战性的问题和答案,以针对模型知识中的空白。我们的贡献包括 (1) 一种从人类那里捕获问答对的方法,该方法直接解决模型知识中的弱点,(2) 一种评估和奖励玩家的方法,成功地激励他们提供高质量的提交内容,以及 (3) 一个可扩展的游戏化平台,成功地在短短几周内从超过 50,000 名参与者那里收集了这些数据。我们对 GAP 的实现显著提高了小型多模态模型(即 MiniCPM-Llama3-V-2.5-8B)的准确性,将其 GPT 分数从 0.147 提高到 0.477,接近了由更大的 GPT-4V 设置的基准。此外,我们证明了使用 MiniCPM-Llama3-V-2.5-8B 生成的的数据也增强了其在其他基准上的性能,并表现出跨模型优势。具体而言,相同的数据提高了 QWEN2-VL-2B 和 QWEN2-VL-7B 在相同多个基准上的性能。