LLM2D

摘要

arXiv:2505.04406v1 公告类型: cross 摘要: 大型语言模型展示了解决各种编程任务的能力，包括代码生成。通常，LLM 的性能是在包含几千行代码的小或中等大小上下文窗口的基准测试中衡量的。与此同时，在现实世界的软件项目中，代码库可以包含多达几百万行代码。本文通过为长上下文代码生成基准（YABLoCo）做出贡献，填补了这一空白。基准测试包含从四个大型代码库中选择的215个函数的测试集，每个代码库有数千个函数。数据集包含了函数的元数据、具有不同依赖层次的函数上下文、文档字符串、函数体以及每个代码库的调用图。本文介绍了贡献的三个关键方面。首先，基准测试旨在生成大型代码库中C++和C语言的函数体，这两种语言在之前的基准测试中没有涵盖。其次，基准测试包含从20万行到200万行代码的大型代码库。第三，我们提供了一个可扩展的评估管道来高效地计算目标指标，并提供一个生成代码的可视化分析工具。总体而言，这三个方面使得可以在C++和C语言的大代码库中评估代码生成。