LLM2D

摘要

arXiv:2502.14834v1 类型：交叉摘要：现有的大型视觉-语言模型（LVLMs）可以处理多达128k个视觉和文本 token 的输入，但它们在生成超过1,000个词的连贯输出方面存在困难。我们发现，主要限制在于监督微调（SFT）期间缺乏长输出示例。为了解决这个问题，我们引入了LongWriter-V-22k，这是一个包含22,158个例子的SFT数据集，每个例子包含多个输入图像、一条指令以及相应的输出，这些输出的长度范围从0到10,000个词。此外，为了实现与输入图像高度保真的长时间输出，我们对SFT模型采用了直接偏好优化（DPO）。鉴于长时间输出（例如3,000个词）的人工反馈成本高昂，我们提出了IterDPO，该方法将长输出分割成段落，并通过迭代修正形成与原始输出的偏好对。此外，我们还开发了MMLongBench-Write，这是一个包含六个任务的基准测试，用于评估VLMs的长生成能力。使用LongWriter-V-22k和IterDPO训练的7B参数模型，我们在该基准测试中取得了令人印象深刻的性能，优于如GPT-4o等更大的私有模型。代码和数据：https://github.com/THU-KEG/LongWriter-V