LLM2D

摘要

arXiv:2503.19900v1 宣传类型：交叉摘要：大型视觉-语言模型（LVLMs）的迅速发展推动了多模态任务的重大进展，使模型能够在视觉和文本领域进行解释、推理和生成输出。虽然在生成任务上表现出色，但现有的LVLMs在需要高保真表示学习的任务中往往面临限制，例如生成用于检索的图像或文本嵌入。最近的工作提出了对LVLMs进行表示学习的微调，但由于表示学习的微调范式，微调后的模型往往会失去其生成能力。为了解决这种权衡，我们引入了CAFe，一种对比自回归微调框架，该框架能够增强LVLMs在表示和生成任务上的能力。通过结合对比目标和自回归语言建模，我们的方法统一了传统上分离的任务，实现了在多模态检索和多模态生成基准测试中的最新成果，包括对象幻觉（OH）的缓解。CAFe 建立了一种新的框架，将嵌入和生成功能在单一模型中协同工作，为未来在检索精度和连贯输出生成方面都表现出色的多模态模型奠定了基础。