LLM2D
非马尔可夫离散扩散与因果语言模型
Non-Markovian Discrete Diffusion with Causal Language Models
作者: Yangtian Zhang, Sizhuang He, Daniel Levine, Lawrence Zhao, David Zhang, Syed A Rizvi, Emanuele Zappala, Rex Ying, David van Dijk
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.09767v1

摘要

arXiv:2502.09767v1 通告类型: cross 摘要: 离散扩散模型已出现为结构化序列建模的灵活可控范式,但它们在表达能力上仍然落后于因果语言模型。为在两种范式之间搭建桥梁,我们引入了CaDDi,这是一种因果离散扩散模型,在非马尔可夫扩散框架内统一了序列建模和时间建模。与传统的按步骤进行且无法访问先前状态的扩散模型不同,CaDDi 整合了时间轨迹,使生成更具表达性和可控性。我们的方法还将因果语言模型作为特殊情况处理,允许无缝地使用预训练的大规模语言模型(LLMs)进行离散扩散,无需进行架构修改。实验结果显示,CaDDi 在自然语言和生物序列任务中均优于最新的离散扩散模型,缩小了基于扩散的方法与大规模自回归变换器之间的差距。