LLM2D

摘要

arXiv:2504.00051v1 宣告类型: cross 摘要: 在标记化文本、音频和图像上训练的变换器可以生成高质量的自回归样本。但笔迹数据，表示为笔坐标序列，仍然未被充分探索。我们介绍了一种新颖的标记化方案，该方案将笔画偏移转换为极坐标，将其离散化成区间，然后将其转换为训练标准GPT模型的标记序列。这使我们能够在不使用任何专门的架构（例如混合密度网络或Graves 2014年的自我推进ASCII注意力头部）的情况下捕捉复杂的笔画分布。仅使用3,500个手写单词和少量简单的数据增强，我们就能训练出一个能够生成逼真的连笔手写的手写模型。我们的方法比之前的基于RNN的方法更简单、更高效。