摘要
arXiv:2502.09925v1 Announce Type: cross
摘要:多模态视觉语言模型在开放式应用中正变得日益重要,这得益于模型架构、训练技术和高质量数据的进步。然而,它们的表现往往受到特定任务数据不足的限制,导致泛化性能不佳和输出偏差。现有努力通过手动任务标注来增加微调数据集中的任务多样性,但这一过程劳动密集,通常只能生成几百种任务类型。为了解决这一问题,我们提出了一种名为TaskGalaxy的大型多模态指令微调数据集,包含19,227种层次任务类型和413,648个样本。TaskGalaxy 利用GPT-4o来丰富任务多样性,从少量手动定义的任务扩展而来,并通过CLIP和GPT-4o筛选出与开源图像最佳匹配的任务,生成相关的问题-答案对。采用多种模型确保样本质量。这一自动化流程既提高了任务多样性,又提升了数据质量,减少了手动干预。将TaskGalaxy应用到LLaVA-v1.5和InternVL-Chat-v1.0模型中,显示了在16个基准测试中的显著性能提升,证明了任务多样性的重要性。TaskGalaxy已公开发布在https://github.com/Kwai-YuanQi/TaskGalaxy。