摘要
arXiv:2412.09612v3 Announce Type: replace-cross
摘要:我们介绍了Olympus,这是一种新的方法,能够将多模态大规模语言模型(MLLMs)转换为一个统一的框架,能够处理广泛的计算机视觉任务。利用一个控制器MLLM,Olympus将超过20种专门的任务分配给专门的模块,这些任务涉及图像、视频和3D对象。基于指令的路由机制可以通过链接的动作流程来实现复杂的工作流程,而无需训练重型生成模型。Olympus很容易与现有的MLLMs集成,扩展其功能,同时保持相当的性能。实验结果表明,Olympus在20个任务上的平均路由准确率达到94.75%,在链接动作场景中的精细度达到91.82%,展示了其作为通用任务路由的有效性,能够解决各种计算机视觉任务。项目页面:http://yuanze-lin.me/Olympus_page/