LLM2D

摘要

本文介绍了游戏化对抗式提示 (GAP) 框架，该框架通过众包收集高质量数据，用于大型多模态模型的视觉指令微调。GAP 将数据收集过程转变为一个引人入胜的游戏，激励玩家提供细致入微、具有挑战性的问题和答案，以针对模型知识中的空白。我们的贡献包括 (1) 一种从人类那里捕获问答对的方法，该方法直接解决模型知识中的弱点，(2) 一种评估和奖励玩家的方法，成功地激励他们提供高质量的提交内容，以及 (3) 一个可扩展的游戏化平台，成功地在短短几周内从超过 50,000 名参与者那里收集了这些数据。我们对 GAP 的实现显著提高了小型多模态模型（即 MiniCPM-Llama3-V-2.5-8B）的准确性，将其 GPT 分数从 0.147 提高到 0.477，接近了由更大的 GPT-4V 设置的基准。此外，我们证明了使用 MiniCPM-Llama3-V-2.5-8B 生成的的数据也增强了其在其他基准上的性能，并表现出跨模型优势。具体而言，相同的数据提高了 QWEN2-VL-2B 和 QWEN2-VL-7B 在相同多个基准上的性能。