LLM2D

摘要

arXiv:2502.08180v1 类别: cross 摘要: 大型语言模型（LLMs）在各种自然语言处理（NLP）任务中表现出强大的泛化能力。然而，它们在字符级别的字符串操作方面表现出明显的弱点，难以完成诸如字符删除、插入和替换等基本操作。这些挑战主要源于分词限制，尽管这些操作在数据预处理和代码生成中起着关键作用。通过系统分析，我们得出了两个关键见解：（1）LLMs 在利用内在的分词知识进行字符级别的推理方面面临着重大困难，（2）原子化的单词结构可以显著增强LLMs 处理分词级别结构信息的能力。基于这些见解，我们提出了通过分而治之进行字符级别操作的新型方法，旨在弥合分词级别处理与字符级别操作之间的鸿沟。该方法将复杂的操作分解为显式的字符级别子任务，并结合受控的分词重建阶段，从而显著提高了准确性。不进行额外训练，我们的方法在字符删除、插入和替换任务上的准确性方面取得了显著提高。为了支持进一步的研究，我们开源了我们的实现和基准测试。