摘要
arXiv:2502.08180v2 声明类型: replace-cross
摘要:大型语言模型(LLMs)在多种自然语言处理(NLP)任务中展示了强大的泛化能力。然而,它们在字符级别的字符串操作方面表现出明显的弱点,难以处理诸如字符删除、插入和替换等基本操作。这些挑战主要是由于分词约束所致,尽管这些操作在数据预处理和代码生成中起着至关重要的作用。通过系统分析,我们得出两个关键见解:(1)LLMs 在利用内在的分词知识进行字符级别推理方面面临重大困难,(2)原子化的单词结构可以显著增强LLMs处理标记级别结构信息的能力。基于这些见解,我们提出了字符级别的分而治之操纵方法,这是一种旨在弥合标记级别处理与字符级别操纵之间差距的新方法。我们的方法将复杂的操作分解为明确的字符级别子任务,并与受控的标记重建阶段相结合,从而在准确性方面取得了显著改进。在无需额外训练的情况下,我们的方法显著提高了“删除”、“插入”和“替换”任务的准确性。为了支持进一步的研究,我们开源了我们的实现和基准测试。