LLM2D

摘要

arXiv:2502.08180v2 声明类型: replace-cross 摘要：大型语言模型（LLMs）在多种自然语言处理（NLP）任务中展示了强大的泛化能力。然而，它们在字符级别的字符串操作方面表现出明显的弱点，难以处理诸如字符删除、插入和替换等基本操作。这些挑战主要是由于分词约束所致，尽管这些操作在数据预处理和代码生成中起着至关重要的作用。通过系统分析，我们得出两个关键见解：（1）LLMs 在利用内在的分词知识进行字符级别推理方面面临重大困难，（2）原子化的单词结构可以显著增强LLMs处理标记级别结构信息的能力。基于这些见解，我们提出了字符级别的分而治之操纵方法，这是一种旨在弥合标记级别处理与字符级别操纵之间差距的新方法。我们的方法将复杂的操作分解为明确的字符级别子任务，并与受控的标记重建阶段相结合，从而在准确性方面取得了显著改进。在无需额外训练的情况下，我们的方法显著提高了“删除”、“插入”和“替换”任务的准确性。为了支持进一步的研究，我们开源了我们的实现和基准测试。