LLM2D

摘要

arXiv:2502.12924v1 宣告类型: cross 摘要：代码转换（CS）仍然是自然语言处理（NLP）中的一个关键挑战。当前的大规模语言模型（LLMs）在解释和生成代码转换文本方面仍存在困难，主要原因是缺乏大规模的CS数据集进行训练。本文提出了一种新的方法论，使用LLMs生成CS数据，并在英语-西班牙语语言对上进行了测试。我们建议将自然的CS句子反向翻译成单一语言的英语，并使用由此产生的平行语料库对LLMs进行微调，以将单一语言句子转换为CS。与之前生成CS的途径不同，我们的方法论将自然CS数据作为起点，使模型能够学习其自然分布，而不仅仅是语法模式。我们通过一项关于人类偏好的研究、定性的错误分析以及使用流行的自动评估指标进行评估，全面分析了模型的性能。结果表明，我们的方法论生成了流畅的代码转换文本，扩展了CS通信的研究机会，而且传统的评估指标与人类判断之间在评估生成的CS数据质量时并无相关性。我们以CC-BY-NC-SA许可协议发布我们的代码和生成的数据集。