摘要
arXiv:2502.04269v1 交叉公告类型
摘要:由于自然语言处理的快速进步,多语言语言模型已经有了显著的进展。像BLOOM 1.7B这样的模型,在多元化的多语言数据集上进行训练,旨在弥合语言差距。然而,这些模型在捕捉语言知识方面的有效性,尤其是对于低资源语言,仍然是一个开放的问题。本文对多语言理解、语义表示和跨语言知识转移的MLMs能力进行了批判性分析。尽管这些模型在高资源语言方面表现良好,但在较少代表的语言方面却遇到了困难。此外,传统的评估方法往往忽视了它们的内部句法和语义编码。
本研究通过三个目标来应对这些关键限制。首先,通过使用余弦相似度分析多语言词嵌入的一致性来评估语义相似性。其次,通过命名实体识别和句子相似性任务来研究BLOOM-1.7B和Qwen2的语言结构。第三,通过对情感分析和文本分类任务中从高资源语言到低资源语言的一般化能力进行评估来探索跨语言知识转移。
通过利用语言探究、性能度量和可视化手段,本研究揭示了MLMs的优点和局限性。研究结果旨在提升多语言NLP模型,确保更好地支持高资源和低资源语言,从而促进语言技术的包容性。