LLM2D
TaskGalaxy: 使用数十万种视觉任务类型扩大多模态指令微调规模
TaskGalaxy: Scaling Multi-modal Instruction Fine-tuning with Tens of Thousands Vision Task Types
作者: Jiankang Chen, Tianke Zhang, Changyi Liu, Haojie Ding, Yaya Shi, Feng Cheng, Huihui Xiao, Bin Wen, Fan Yang, Tingting Gao, Di Zhang
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.09925v1

摘要

arXiv:2502.09925v1 Announce Type: cross 摘要:多模态视觉语言模型在开放式应用中正变得日益重要,这得益于模型架构、训练技术和高质量数据的进步。然而,它们的表现往往受到特定任务数据不足的限制,导致泛化性能不佳和输出偏差。现有努力通过手动任务标注来增加微调数据集中的任务多样性,但这一过程劳动密集,通常只能生成几百种任务类型。为了解决这一问题,我们提出了一种名为TaskGalaxy的大型多模态指令微调数据集,包含19,227种层次任务类型和413,648个样本。TaskGalaxy 利用GPT-4o来丰富任务多样性,从少量手动定义的任务扩展而来,并通过CLIP和GPT-4o筛选出与开源图像最佳匹配的任务,生成相关的问题-答案对。采用多种模型确保样本质量。这一自动化流程既提高了任务多样性,又提升了数据质量,减少了手动干预。将TaskGalaxy应用到LLaVA-v1.5和InternVL-Chat-v1.0模型中,显示了在16个基准测试中的显著性能提升,证明了任务多样性的重要性。TaskGalaxy已公开发布在https://github.com/Kwai-YuanQi/TaskGalaxy。