摘要
arXiv:2504.12315v1 声明类型: cross
摘要:随着多模态大型语言模型(MLLMs)的发展,开源社区涌现出了众多卓越的成就。由于创建和训练多模态数据对的复杂性,建立强大的MLLMs仍然是一项计算密集和耗时的过程。在这项工作中,我们介绍了Capybara-OMNI,这是一种以轻量级和高效方式进行训练的MLLM,并支持理解文本、图像、视频和音频模态。我们详细介绍了框架设计、数据构建和训练食谱,以便逐步开发MLLM以获得竞争性性能。我们还提供了在我们的实验中使用的独特基准,以展示如何正确验证不同模态下的理解能力。结果显示,按照我们的指导,我们可以高效地构建一个在各种多模态基准测试中规模相同时能达到竞争性性能的MLLM。此外,为了增强模型的多模态指令跟随和对话能力,我们进一步讨论了如何在MLLM理解模型的基础上训练聊天版本,这更符合用户的习惯,适于实时与人类交互的任务。我们公开披露了Capybara-OMNI模型及其基于聊天的版本。披露内容包括模型权重、部分训练数据和推理代码,这些资源已发布在GitHub上。