摘要
arXiv:2405.05572v2 通告类型: replace-cross
摘要: 当前用于分析或生成代码混合句子的计算方法并未明确建模代码混合句子的“自然性”或“接受性”,而是依赖训练语料库来反映可接受的代码混合句子的分布。对代码混合文本的接受性的建模可以帮助区分自然的代码混合文本,并促进代码混合文本的高质量生成。为此,我们构建了Cline数据集,包含英语-印地语(en-hi)代码混合文本的人工接受性判断。Cline是此类数据集中规模最大的,包含16,642句句子,样本来源包括合成生成的代码混合文本和从在线社交媒体收集的样本。我们的分析表明,常用的代码混合度量标准,如CMI、切换点数量、突发性,尽管用于过滤/编目/比较代码混合语料库,但与人工接受性判断的相关性较低,突显了我们数据集的必要性。使用Cline进行的实验表明,仅使用代码混合度量标准作为特征训练的简单多层感知机(MLP)模型,被预训练多语言大语言模型(MLLM)微调后所超越。具体来说,在编码器模型中,XLM-Roberta和Bernice在不同配置下均优于IndicBERT。在编码器-解码器模型中,mBART优于mT5,但编码器-解码器模型无法超越仅编码器模型。仅解码器模型与其他MLLMs相比表现最佳,Llama 3.2 - 3B模型优于相似大小的Qwen和Phi模型。与ChatGPT的零样本和少量样本能力的比较显示,数据量更大的MLLMs微调后优于ChatGPT,提供了代码混合任务改进的空间。从英语-印地语到英语-泰米尔语接受性判断的零样本迁移优于随机基线。