摘要
arXiv:2405.17067v2 声明类型: replace-cross
摘要:大型语言模型(LLMs)在语言理解和生成方面展现了显著的能力。然而,也观察到LLMs在对特定查询产生不准确响应方面存在一定的倾向。这种不足可以追溯到LLMs必须经历的分词步骤,这是所有LLMs固有的不可避免的局限性。事实上,不正确的分词是妨碍LLMs精确理解输入的关键点,从而导致了不满意的结果。这一缺陷在中国场景中更为明显。为了展示这一LLMs的缺陷,我们构建了一个对抗数据集,命名为**ADT(对抗分词数据集)**,该数据集利用了各种开源LLMs的词汇库来挑战LLMs的分词能力。ADT包含两个子集:人工构建的ADT-Human和自动生成的ADT-Auto。我们的实证结果表明,我们的ADT在挑战领先LLMs的分词方面非常有效,包括GPT-4o、Llama-3、Deepseek-R1等,从而降低了这些LLMs的能力。此外,我们自动数据生成的方法已被证明是高效且鲁棒的,可以应用于任何开源LLMs。在本文中,我们实质性地调查了LLMs在挑战其分词分割方面的脆弱性,这将为后续通过优化分词过程和算法来提高LLMs的能力的研究提供启示。