LLM2D
IndicSentEval:多语言 Transformer 模型在多大程度上编码了印度语系的语言属性?
IndicSentEval: How Effectively do Multilingual Transformer Models encode Linguistic Properties for Indic Languages?
作者: Akhilesh Aravapalli, Mounika Marreddy, Subba Reddy Oota, Radhika Mamidi, Manish Gupta
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02611v1

摘要

基于Transformer的模型彻底改变了自然语言处理领域。为了理解它们为何能如此出色地执行任务并评估其可靠性,一些研究集中于以下问题:这些模型编码了哪些语言属性,以及编码程度如何?当输入文本受到扰动时,这些模型在编码语言属性方面的鲁棒性如何?然而,这些研究主要集中在BERT和英语上。在本文中,我们使用9种多语言Transformer模型(7种通用模型和2种印度语种专用模型),研究了8种语言属性在13种不同扰动下,针对6种印度语种的编码能力和鲁棒性问题。为了进行这项研究,我们引入了一个新的多语言基准数据集IndicSentEval,包含大约$\sim$47K个句子。令人惊讶的是,我们对表面、句法和语义属性的探测分析表明,虽然几乎所有多语言模型都表现出对英语一致的编码性能,但它们对印度语种的表现却参差不齐。正如预期的那样,印度语种专用多语言模型比通用模型更能捕捉到印度语种的语言属性。有趣的是,通用模型在鲁棒性方面普遍优于印度语种专用模型,尤其是在删除名词和动词、仅删除动词或仅保留名词等扰动下。总而言之,这项研究为探测和扰动特定情况下,流行的多语言Transformer模型在不同印度语种上的优势和劣势提供了宝贵的见解。我们将代码和数据集公开发布[https://tinyurl.com/IndicSentEval]。