LLM2D
掌握数据合成工艺以应对CodeLLMs
Mastering the Craft of Data Synthesis for CodeLLMs
作者: Meng Chen, Philip Arthur, Qianyu Feng, Cong Duy Vu Hoang, Yu-Heng Hong, Mahdi Kazemi Moghaddam, Omid Nezami, Thien Nguyen, Gioacchino Tangari, Duy Vu, Thanh Vu, Mark Johnson, Krishnaram Kenthapadi, Don Dharmasiri, Long Duong, Yuan-Fang Li
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2411.00005v2

摘要

arXiv:2411.00005v2 Announce Type: replace-cross 摘要:大型语言模型(LLMs)在代码理解与生成方面的表现令人印象深刻,这使得编码任务成为研究者的重点研究方向,因为它们在实际应用中的价值以及作为评估LLM的试验场方面具有重要意义。数据合成和过滤技术在这一领域中被广泛采用并显示出极高的有效性。在本文中,我们提出了一项集中的回顾和分类方法,强调了这些技术的最新进展。我们指出了关键挑战,探讨了未来的研究方向,并为新进入该领域的研究人员提供了实用指导。