LLM2D
基于自然出现数据的条件生成代码切换文本的LLM方法论
Conditioning LLMs to Generate Code-Switched Text: A Methodology Grounded in Naturally Occurring Data
作者: Maite Heredia, Gorka Labaka, Jeremy Barnes, Aitor Soroa
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12924v1

摘要

arXiv:2502.12924v1 宣告类型: cross 摘要:代码转换(CS)仍然是自然语言处理(NLP)中的一个关键挑战。当前的大规模语言模型(LLMs)在解释和生成代码转换文本方面仍存在困难,主要原因是缺乏大规模的CS数据集进行训练。本文提出了一种新的方法论,使用LLMs生成CS数据,并在英语-西班牙语语言对上进行了测试。我们建议将自然的CS句子反向翻译成单一语言的英语,并使用由此产生的平行语料库对LLMs进行微调,以将单一语言句子转换为CS。与之前生成CS的途径不同,我们的方法论将自然CS数据作为起点,使模型能够学习其自然分布,而不仅仅是语法模式。我们通过一项关于人类偏好的研究、定性的错误分析以及使用流行的自动评估指标进行评估,全面分析了模型的性能。结果表明,我们的方法论生成了流畅的代码转换文本,扩展了CS通信的研究机会,而且传统的评估指标与人类判断之间在评估生成的CS数据质量时并无相关性。我们以CC-BY-NC-SA许可协议发布我们的代码和生成的数据集。