LLM2D

摘要

arXiv:2503.21670v1 宣布类型：交叉摘要：数字通信的快速发展推动了代码混合在多语言社区中的广泛应用，特别是印地语-英语代码混合。现有数据集往往关注罗马化的文本，范围有限，或者依赖合成数据，这无法捕捉到现实生活中的语言细微差别。人类注解对于评估代码混合文本的自然度和可接受性至关重要。为了解决这些挑战，我们介绍了COMI-LINGUA，这是最大的手动注解代码混合文本数据集，包含100,970个实例，由三方专家分别使用梵文和罗马文本进行评估。该数据集支持五项基本的NLP任务：语言识别、矩阵语言识别、词性标注、命名实体识别和翻译。我们使用COMILINGUA评估了LLMs在这些任务上的表现，揭示了当前多语言建模策略的局限性，并强调了改进代码混合文本处理能力的重要性。COMI-LINGUA可在以下网址获取：https://huggingface.co/datasets/LingoIITGN/COMI-LINGUA。