LLM2D
连写Transformer
The Cursive Transformer
作者: Sam Greydanus, Zachary Wimpee
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00051v1

摘要

arXiv:2504.00051v1 宣告类型: cross 摘要: 在标记化文本、音频和图像上训练的变换器可以生成高质量的自回归样本。但笔迹数据,表示为笔坐标序列,仍然未被充分探索。我们介绍了一种新颖的标记化方案,该方案将笔画偏移转换为极坐标,将其离散化成区间,然后将其转换为训练标准GPT模型的标记序列。这使我们能够在不使用任何专门的架构(例如混合密度网络或Graves 2014年的自我推进ASCII注意力头部)的情况下捕捉复杂的笔画分布。仅使用3,500个手写单词和少量简单的数据增强,我们就能训练出一个能够生成逼真的连笔手写的手写模型。我们的方法比之前的基于RNN的方法更简单、更高效。