摘要
arXiv:2407.11784v2 优化类型: 替换
摘要:多模态大型模型的出现推动了人工智能的发展,带来了前所未有的性能和功能水平。然而,由于模型为中心和数据为中心的发展途径历来是孤立的,优化这些模型仍然具有挑战性,这导致了次优的结果和资源利用效率低下。为应对这一挑战,我们提出了一种新的集成数据-模型共同开发的沙盒套件。该沙盒提供了一个反馈驱动的实验平台,能够有效地迭代和指导数据和模型的优化。我们提出的“探查-分析-优化”工作流,在诸如使用CLIP进行图像-文本预训练、使用类似LLaVA的模型进行图像到文本生成以及使用基于DiT的模型进行文本到视频生成等多模态任务的实际案例中得到了验证,产生了可转移且显著的性能提升,例如在VBench排行榜上名列前茅。广泛的实验还揭示了数据质量、多样性、模型行为和计算成本之间相互作用的宝贵见解。所有代码、数据集和模型均已开源,以促进未来的研究和应用,这些应用由于缺乏专门的共同开发基础设施而原本是不可行的。