LLM2D
LongWriter-V: Enables 超长高保真生成能力于视觉语言模型中
LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models
作者: Shangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14834v1

摘要

arXiv:2502.14834v1 类型:交叉 摘要:现有的大型视觉-语言模型(LVLMs)可以处理多达128k个视觉和文本 token 的输入,但它们在生成超过1,000个词的连贯输出方面存在困难。我们发现,主要限制在于监督微调(SFT)期间缺乏长输出示例。为了解决这个问题,我们引入了LongWriter-V-22k,这是一个包含22,158个例子的SFT数据集,每个例子包含多个输入图像、一条指令以及相应的输出,这些输出的长度范围从0到10,000个词。此外,为了实现与输入图像高度保真的长时间输出,我们对SFT模型采用了直接偏好优化(DPO)。鉴于长时间输出(例如3,000个词)的人工反馈成本高昂,我们提出了IterDPO,该方法将长输出分割成段落,并通过迭代修正形成与原始输出的偏好对。此外,我们还开发了MMLongBench-Write,这是一个包含六个任务的基准测试,用于评估VLMs的长生成能力。使用LongWriter-V-22k和IterDPO训练的7B参数模型,我们在该基准测试中取得了令人印象深刻的性能,优于如GPT-4o等更大的私有模型。代码和数据:https://github.com/THU-KEG/LongWriter-V