LLM2D

摘要

arXiv:2409.04410v3 宣告类型: 替换-交叉摘要：Open-MAGVIT2项目产生了一个开源的Google MAGVIT-v2分词器的复制，该分词器具有超大的码本（即，$2^{18}$个码），并实现了ImageNet和UCF基准上的最先进的重构性能。我们还提供了一个在大规模数据上预训练的分词器，在零样本基准测试中显著超越了Cosmos（ImageNet原始分辨率上rFID分别为1.93 vs. 0.78）。此外，我们探索了其在朴素自回归模型中的应用以验证其可扩展性，从而产生了一个从300M到1.5B的各种自回归图像生成模型。为帮助自回归模型在超大词汇量下进行预测，我们通过不对称的令牌分解将词汇量分解为不同大小的两个子词汇量，并进一步引入“下一个子令牌预测”以增强子令牌之间的交互以获得更好的生成质量。我们释放了所有模型和代码，以促进自回归视觉生成领域的创新和创造力。