摘要
arXiv:2412.10924v4 宣布类型: replace-cross
摘要:分词是当前许多语言模型,包括生成型人工智能(Generative AI)的大语言模型(LLMs)架构中的必要组成部分,但在模型的认知能力上却很少受到关注。我们认为,大语言模型展示了分布式假设(DH)足以实现合理的人类语言性能,而token化的出现及其当前的结构限制对人体语言意义单元的产生动机提出了挑战,特别是在分词作为(1)语义基元和(2)将人类语言中的显著分布模式传递给模型的载体方面。我们从基于BPE的分词器、从Hugging Face和tiktoken获取的现有模型词汇表,以及一款RoBERTa(大模型)的各层中展示的示例token向量中探索了这些分词方法。除了创建次优的语义构建块并阻碍模型对于必要分布模式的访问之外,我们描述了token和预训练如何成为偏见和其他不希望的内容的后门,而当前的对齐实践可能无法解决这一问题。此外,我们还提供了证据表明,分词算法的目标函数会影响大语言模型的认知能力,尽管这一点在理论上认为是有意义的且与主要系统智能隔绝的。[该论文于2024年12月首次上传至arXiv。]