摘要
arXiv:2411.00005v2 Announce Type: replace-cross
摘要:大型语言模型(LLMs)在代码理解与生成方面的表现令人印象深刻,这使得编码任务成为研究者的重点研究方向,因为它们在实际应用中的价值以及作为评估LLM的试验场方面具有重要意义。数据合成和过滤技术在这一领域中被广泛采用并显示出极高的有效性。在本文中,我们提出了一项集中的回顾和分类方法,强调了这些技术的最新进展。我们指出了关键挑战,探讨了未来的研究方向,并为新进入该领域的研究人员提供了实用指导。