LLM2D
UniToken:通过统一视觉编码 harmonize 多模态理解和生成
UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding
作者: Yang Jiao, Haibo Qiu, Zequn Jie, Shaoxiang Chen, Jingjing Chen, Lin Ma, Yu-Gang Jiang
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04423v1

摘要

arXiv:2504.04423v1 Announce Type: cross 摘要:我们引入了UniToken,这是一种自回归生成模型,通过结合离散和连续表示来编码视觉输入,从而实现统一的视觉理解和图像生成任务的无缝集成。与依赖单向视觉表示的先前方法不同,我们统一的视觉编码框架捕捉到了高层次语义和低层次细节,提供了多维信息,使异构任务根据其固有的特性选择性地吸收领域特定的知识。通过深入的实验,我们揭示了开发同时具备视觉理解和图像生成能力的统一模型的关键原则。在一系列知名基准的广泛评估中,UniToken达到或超越了现有方法的性能。这些结果使UniToken成为未来在这个领域研究中的稳健基础。代码和模型可在https://github.com/SxJyJay/UniToken获取。