LLM2D
数据合成技巧掌握——为CodeLLMs服务
Mastering the Craft of Data Synthesis for CodeLLMs
作者: Meng Chen, Philip Arthur, Qianyu Feng, Cong Duy Vu Hoang, Yu-Heng Hong, Mahdi Kazemi Moghaddam, Omid Nezami, Thien Nguyen, Gioacchino Tangari, Duy Vu, Thanh Vu, Mark Johnson, Krishnaram Kenthapadi, Don Dharmasiri, Long Duong, Yuan-Fang Li
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2411.00005v3

摘要

arXiv:2411.00005v3 更改类型: replace-cross 摘要:大型语言模型(LLMs)在代码理解与生成方面展示了令人印象深刻的性能,使编程任务成为研究人员的重点关注领域,尤其是由于它们在LLM评估的试验场方面的重要应用和价值。数据合成和过滤技术已经被广泛采用并显示出在这一领域的高度有效性。在本文中,我们对这些技术进行了集中调查和分类,并强调了最近的进展。我们突出显示了关键挑战,探讨了未来的研究方向,并为新进入该领域的研究人员提供实用指导。