LLM2D
面向 Platonic 原型的高效多模态语言模型
Platonic Grounding for Efficient Multimodal Language Models
作者: Moulik Choraria, Xinbo Wu, Akhil Bhimaraju, Nitesh Sekhar, Yue Wu, Xu Zhang, Prateek Singhal, Lav R. Varshney
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.19327v1

摘要

arXiv:2504.19327v1 Announce Type: cross 摘要:基于Transformer的模型的数据和参数量的指数增长正在导致性能改进的递减,尤其是在训练成本面前更为明显。这种停滞表明了需要更高效微调和推断方法的重要性,同时保持类似性能。对于多模态学习范式来说尤为相关,因为处理多模态标记的推断成本可能决定模型的实际可行性。同时,关于表示和机制可解释性的研究已经提高了我们对基于Transformer的模型内部工作机制的理解;其中一条研究路线揭示了预训练模型在更深层面上跨模态的隐含对齐。受此启发,我们推动并提出了一种简单的现有多模态框架的修改方法,这些框架依赖于预训练模型的对齐。我们展示了我们的方法能够保持甚至在某些情况下改进基线方法的性能,同时在训练和推断时计算成本方面实现显著提升。我们的工作还对如何高效地将预训练模型组合成更大的系统具有启示作用。