LLM2D

摘要

arXiv:2504.15199v1 宣告类型: cross 摘要: MILS（多模态迭代LLM解算器）是一种最近发布的框架，声称“LLMs可以看和听而无需任何训练”，通过对零样本图像描述的迭代、LLM-CLIP 基础方法的应用来实现。虽然MILS方法展示了良好的性能，但我们的调查揭示了其成功背后隐藏着高昂的计算成本，因为其昂贵的多步精炼过程。相比之下，BLIP-2和GPT-4V通过简化的单步方法实现了具有竞争力的结果。我们推测，MILS迭代过程中的重大开销可能会削弱其实际应用中的优势，从而挑战“可以在不付出大量资源代价的情况下达到零样本性能”的说法。这项工作首次揭示并量化了MILS在输出质量和计算成本之间的trade-offs，为更高效的多模态模型设计提供了宝贵的见解。