LLM2D
罗马化潜空间:罗马化在大语言模型中的多语言角色
RomanLens: Latent Romanization and its role in Multilinguality in LLMs
作者: Alan Saji (Nilekani Centre at AI4Bharat), Jaavid Aktar Husain (Singapore University of Technology and Design), Thanmay Jayakumar (Nilekani Centre at AI4Bharat, Indian Institute of Technology Madras, India), Raj Dabre (Nilekani Centre at AI4Bharat, Indian Institute of Technology Bombay, India), Anoop Kunchukuttan (Nilekani Centre at AI4Bharat, Microsoft, India), Mitesh M. Khapra (Nilekani Centre at AI4Bharat, Indian Institute of Technology Madras, India), Ratish Puduppully (IT University of Copenhagen)
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07424v1

摘要

arXiv:2502.07424v1 类别: 交叉学科 摘要: 尽管大型语言模型(LLMs)主要是在以英语为中心的语料库上进行训练,但它们在多种语言通用上表现出令人瞩目的能力。一个基本问题由此产生:LLMs 是如何实现如此强大的多语言能力的?对于非拉丁字母体系的语言,我们研究了罗马化的作用——即使用拉丁字符表示非拉丁字母体系——作为多语言处理中的桥梁。通过机制可解释性技术,我们分析了下一个标记生成过程,发现中间层经常以罗马化形式表示目标词,然后转变为本地书写体系,我们称这种现象为潜在罗马化。此外,通过激活补丁实验,我们证明LLMs在本地书写体系和罗马化书写体系中以类似方式编码语义概念,这表明存在共享的潜在表示。此外,在翻译到非拉丁语言时,我们的发现揭示了当目标语言以罗马化形式呈现时,其表示在模型的层中比本地书写体系出现得更早。这些见解加深了对LLMs中多语言表示的理解,并指出罗马化在促进语言迁移方面隐含的作用。我们的工作为改进多语言语言建模和可解释性提供了新的方向。