摘要
arXiv:2504.15199v1 宣告类型: cross
摘要: MILS(多模态迭代LLM解算器)是一种最近发布的框架,声称“LLMs可以看和听而无需任何训练”,通过对零样本图像描述的迭代、LLM-CLIP 基础方法的应用来实现。虽然MILS方法展示了良好的性能,但我们的调查揭示了其成功背后隐藏着高昂的计算成本,因为其昂贵的多步精炼过程。相比之下,BLIP-2和GPT-4V通过简化的单步方法实现了具有竞争力的结果。我们推测,MILS迭代过程中的重大开销可能会削弱其实际应用中的优势,从而挑战“可以在不付出大量资源代价的情况下达到零样本性能”的说法。这项工作首次揭示并量化了MILS在输出质量和计算成本之间的trade-offs,为更高效的多模态模型设计提供了宝贵的见解。