LLM2D

摘要

arXiv:2502.09925v1 Announce Type: cross 摘要：多模态视觉语言模型在开放式应用中正变得日益重要，这得益于模型架构、训练技术和高质量数据的进步。然而，它们的表现往往受到特定任务数据不足的限制，导致泛化性能不佳和输出偏差。现有努力通过手动任务标注来增加微调数据集中的任务多样性，但这一过程劳动密集，通常只能生成几百种任务类型。为了解决这一问题，我们提出了一种名为TaskGalaxy的大型多模态指令微调数据集，包含19,227种层次任务类型和413,648个样本。TaskGalaxy 利用GPT-4o来丰富任务多样性，从少量手动定义的任务扩展而来，并通过CLIP和GPT-4o筛选出与开源图像最佳匹配的任务，生成相关的问题-答案对。采用多种模型确保样本质量。这一自动化流程既提高了任务多样性，又提升了数据质量，减少了手动干预。将TaskGalaxy应用到LLaVA-v1.5和InternVL-Chat-v1.0模型中，显示了在16个基准测试中的显著性能提升，证明了任务多样性的重要性。TaskGalaxy已公开发布在https://github.com/Kwai-YuanQi/TaskGalaxy。