摘要
近年来,视觉语言模型 (VLMs) 的进展以及高质量多模态对齐数据的稀缺性,激发了众多关于合成 VLM 数据生成的探索。传统的 VLM 数据构建方法通常采用字幕和 OCR 领域专家组合,或更强大的 VLM API 和昂贵的人工标注。本文提出了 World to Code (W2C),一个精心策划的多模态数据构建管道,将最终的生成输出组织成 Python 代码格式。该管道利用 VLM 本身,通过不同的提示提取跨模态信息,并通过一致性过滤策略再次过滤生成的输出。实验表明,W2C 的高质量通过提高各种现有的视觉问答和视觉定位基准,涵盖不同的 VLMs。进一步的分析还表明,VLMs 的新代码解析能力比常用的详细字幕能力具有更好的跨模态等效性。我们的代码可在 https://github.com/foundation-multimodal-models/World2Code 获取。