LLM2D
罗马化_lens:潜在罗马化在多语言LLM中的作用
RomanLens: The Role Of Latent Romanization In Multilinguality In LLMs
作者: Alan Saji, Jaavid Aktar Husain, Thanmay Jayakumar, Raj Dabre, Anoop Kunchukuttan, Ratish Puduppully
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.07424v2

摘要

arXiv:2502.07424v2 更新类型: 替换-交叉 摘要:尽管大型语言模型(LLMs)主要在以英语为中心的数据集上进行训练,它们在多语言泛化方面表现出惊人的能力。一个基本的问题出现了:LLMs 是如何实现这种稳健的多语言能力的?我们以非罗马字符语言为例,研究罗马化——使用罗马字符表示非罗马字符——作为多语言处理中的桥梁作用。通过使用机制可解释性技术,我们分析了下一个标记生成过程,并发现中间层经常以罗马化形式表示目标词汇,在转换为原生脚本之前,我们称这种现象为潜在罗马化。此外,通过激活补丁实验,我们证明LLMs 在原生脚本和罗马化脚本中以类似的方式编码语义概念,表明存在一个共享的底层表示。另外,对于翻译为非罗马字符语言的研究发现,当目标语言是以罗马化形式表示时,其表示在模型的层中比以原生脚本表示时出现得更早。这些见解加深了我们对LLMs 中多语言表示的理解,并突显了罗马化在促进语言转移中的潜在作用。