LLM2D
COMI-LINGUA:专家注释的印英混合代码多任务NLP大规模数据集
COMI-LINGUA: Expert Annotated Large-Scale Dataset for Multitask NLP in Hindi-English Code-Mixing
作者: Rajvee Sheth, Himanshu Beniwal, Mayank Singh
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.21670v1

摘要

arXiv:2503.21670v1 宣布类型:交叉 摘要:数字通信的快速发展推动了代码混合在多语言社区中的广泛应用,特别是印地语-英语代码混合。现有数据集往往关注罗马化的文本,范围有限,或者依赖合成数据,这无法捕捉到现实生活中的语言细微差别。人类注解对于评估代码混合文本的自然度和可接受性至关重要。为了解决这些挑战,我们介绍了COMI-LINGUA,这是最大的手动注解代码混合文本数据集,包含100,970个实例,由三方专家分别使用梵文和罗马文本进行评估。该数据集支持五项基本的NLP任务:语言识别、矩阵语言识别、词性标注、命名实体识别和翻译。我们使用COMILINGUA评估了LLMs在这些任务上的表现,揭示了当前多语言建模策略的局限性,并强调了改进代码混合文本处理能力的重要性。COMI-LINGUA可在以下网址获取:https://huggingface.co/datasets/LingoIITGN/COMI-LINGUA。