摘要
arXiv:2502.08180v1 类别: cross
摘要: 大型语言模型(LLMs)在各种自然语言处理(NLP)任务中表现出强大的泛化能力。然而,它们在字符级别的字符串操作方面表现出明显的弱点,难以完成诸如字符删除、插入和替换等基本操作。这些挑战主要源于分词限制,尽管这些操作在数据预处理和代码生成中起着关键作用。通过系统分析,我们得出了两个关键见解:(1)LLMs 在利用内在的分词知识进行字符级别的推理方面面临着重大困难,(2)原子化的单词结构可以显著增强LLMs 处理分词级别结构信息的能力。基于这些见解,我们提出了通过分而治之进行字符级别操作的新型方法,旨在弥合分词级别处理与字符级别操作之间的鸿沟。该方法将复杂的操作分解为显式的字符级别子任务,并结合受控的分词重建阶段,从而显著提高了准确性。不进行额外训练,我们的方法在字符删除、插入和替换任务上的准确性方面取得了显著提高。为了支持进一步的研究,我们开源了我们的实现和基准测试。