摘要
arXiv:2502.00241v1 多模态类型: 多模态
摘要: 将多种模态纳入大型语言模型(LLMs)是增强其对非文本数据理解能力的强大途径,从而使它们能够执行多模态任务。视觉语言模型(VLMs)因其在许多实用场景中的应用而成为增长最快的多模态模型类别,这些场景包括医疗保健、机器人技术和无障碍技术。不幸的是,尽管文献中不同VLM在各种基准测试中展示了令人印象深刻的视觉能力,但它们都是由人类专家手工设计的;目前没有自动化的框架来创建特定任务的多模态模型。
我们引入了Mordal,这是一个自动化的多模态模型搜索框架,能够在搜索过程中有效地找到最适合用户定义任务的最佳VLM,无需人工干预。Mordal通过减少搜索过程中考虑的候选数量并最小化对每个剩余候选的评估时间来实现这一点。我们的评估表明,Mordal可以在网格搜索所需GPU小时数的8.9到11.6倍的较低数量下找到给定问题的最佳VLM。在我们的评估过程中,我们还发现了优于当前最先进的VLM的新VLM。