摘要
arXiv:2502.14911v1 交叉类型公告
摘要:近期大型语言模型(LLMs)在广泛基准测试的高资源语言上展现了卓越的能力;然而,欠资源语言的语法学特征尚未被充分探索。我们介绍了Batayan,这是一个综合性的菲律宾语基准,旨在系统性地评估LLMs在三个关键自然语言处理(NLP)能力上的表现:理解、推理和生成。Batayan整合了八个任务,涵盖了塔加洛语和代码切换的塔金什语陈述。我们严格且以母语使用者为导向的标注过程确保了对复杂菲律宾语形态和句法结构的流畅性和真实性,缓解了现有菲律宾语语料库中存在的广泛翻译腔偏见。我们在多种多语言LLMs上报告了实验证据,强调了菲律宾语在预训练语料库中的代表性不足、在建模菲律宾语丰富形态和结构时所面临的独特挑战,以及显式支持菲律宾语语言和指令调整的重要性。此外,我们讨论了在数据集构建过程中遇到的实践挑战,并提出了一种原则性解决方案,以构建符合文化和语言特征的资源,特别是在欠代表的语言中。我们也提供了一个公开的基准和排行榜,作为菲律宾语NLP迭代性社区驱动进展的明确基础。