摘要
arXiv:2505.05422v1 交叉声明类型
摘要:先锋性的基于令牌的作品,如Chameleon和Emu3已经为多模态统一建立了基础,但因缺乏高层语义而在训练计算开销高和理解性能有限方面面临挑战。在本文中,我们介绍了TokLIP,一种视觉令牌器,通过将向量量化(VQ)令牌语义化并结合CLIP级别的语义来增强理解,同时通过标准VQ令牌实现端到端的多模态自回归训练。TokLIP将低级离散VQ令牌化器与基于ViT的令牌编码器相结合,以捕获高层连续语义。与之前的方法(例如VILA-U)不同,TokLIP将理解和生成的目标分离,允许直接使用高级VQ令牌化器,而无需定制量化操作。我们的实验证明,TokLIP实现了卓越的数据效率,赋予视觉令牌高层语义理解的同时增强低级生成能力,使其非常适合在理解和生成任务中使用自回归Transformer。代码和模型可在https://github.com/TencentARC/TokLIP获得。