LLM2D

摘要

arXiv:2412.00127v2 通告类型: replace-cross 摘要: 我们介绍了一种名为Orthus的自回归(AR)变压器，它在根据文本提示生成图像、基于视觉输入回答问题以及甚至创作冗长的图像-文本交错内容方面表现出色。与先前统一多模态建模的成果不同，Orthus在自回归建模原则下同时处理离散的文本标记和连续的图像特征。对视觉信号的连续处理最大限度地减少了图像理解和生成中的信息损失，而完全的自回归建模使模态间的相关性建模变得直观。Orthus 能够利用这些优点的关键机制在于其特定模态的头部——一个常规语言模型(LM)头部预测离散的文本标记，一个扩散头部生成连续的图像特征，条件是基于主干网络的输出。我们为构建Orthus 设计了一种高效策略——通过将现有统一自回归模型中的向量量化(VQ)操作替换为软替代、引入扩散头部，并调整添加的模块以重建图像，我们可以在极短时间内（例如，不到72个A100 GPU小时）轻松创建一个Orthus-base模型。Orthus-base 可进一步在后训练中增强对交错图像和文本的建模。实验结果显示，Orthus 在标准基准测试中超越了包括Show-o和Chameleon在内的竞争基准模型，在使用7B参数的情况下，GenEval得分为0.58，MME-P得分为1265.8。此外，Orthus 还展示了出色的混合模态生成能力，反映了其处理复杂实际生成任务的潜力。