LLM2D

摘要

本文介绍了一种名为“游戏化对抗性提示（Gamified Adversarial Prompting，GAP）”的框架，该框架利用众包收集高质量数据，用于大型多模态模型的视觉指令微调。GAP将数据收集过程转化为一个引人入胜的游戏，激励玩家提供细致入微、极具挑战性的问题和答案，以针对模型知识中的不足之处。我们的贡献包括：（1）一种从人类那里捕捉问答对的方法，直接解决模型知识中的弱点；（2）一种评估和奖励玩家的方法，成功激励他们提供高质量的提交；（3）一个可扩展的游戏化平台，在短短几周内成功地从超过50,000名参与者那里收集了这些数据。我们的GAP实现显著提高了小型多模态模型（MiniCPM-Llama3-V-2.5-8B）的准确性，将其在我们的数据集上的GPT评分从0.147提高到0.477，接近大型GPT-4V设定的基准。此外，我们证明了使用MiniCPM-Llama3-V-2.5-8B生成的数据也提高了其在其他基准上的性能，并展现出跨模型的优势。具体来说，相同的数据提高了QWEN2-VL-2B和QWEN2-VL-7B在相同多个基准上的性能。