LLM2D

分词很重要！通过挑战分词方式降级大型语言模型

Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization

作者: Dixuan Wang, Yanda Li, Junyuan Jiang, Zepeng Ding, Ziqin Luo, Guochao Jiang, Jiaqing Liang, Deqing Yang

发布日期: 5/16/2025

arXiv ID: oai:arXiv.org:2405.17067v2

摘要

arXiv:2405.17067v2 声明类型: replace-cross 摘要：大型语言模型（LLMs）在语言理解和生成方面展现了显著的能力。然而，也观察到LLMs在对特定查询产生不准确响应方面存在一定的倾向。这种不足可以追溯到LLMs必须经历的分词步骤，这是所有LLMs固有的不可避免的局限性。事实上，不正确的分词是妨碍LLMs精确理解输入的关键点，从而导致了不满意的结果。这一缺陷在中国场景中更为明显。为了展示这一LLMs的缺陷，我们构建了一个对抗数据集，命名为**ADT（对抗分词数据集）**，该数据集利用了各种开源LLMs的词汇库来挑战LLMs的分词能力。ADT包含两个子集：人工构建的ADT-Human和自动生成的ADT-Auto。我们的实证结果表明，我们的ADT在挑战领先LLMs的分词方面非常有效，包括GPT-4o、Llama-3、Deepseek-R1等，从而降低了这些LLMs的能力。此外，我们自动数据生成的方法已被证明是高效且鲁棒的，可以应用于任何开源LLMs。在本文中，我们实质性地调查了LLMs在挑战其分词分割方面的脆弱性，这将为后续通过优化分词过程和算法来提高LLMs的能力的研究提供启示。

查看原文下载 PDF