LLM2D

摘要

arXiv:2505.05626v1 交叉类型摘要：实现视觉和语言的深层对齐仍然是多模态大型语言模型（MLLMs）面临的一个核心挑战。这些模型往往无法充分利用视觉输入，而是依赖于强大的语言先验。我们的方法首先洞察了MLLMs内部如何构建对图像区域的视觉理解，然后介绍了增强这种能力的技术。具体来说，我们探索了既加深模型对视觉内容的理解又能确保这些视觉洞察积极引导语言生成的技术。我们通过详细上游分析展示了结果模型在预测视觉依赖性标记以及在具有视觉挑战性任务上取得10个点的进步方面具备的优越多模态理解能力。