摘要
arXiv:2504.00255v1 文章类型: cross
摘要: 本研究评估了大型语言模型(LLMs)从最近的NLP论文中生成代码的能力。该任务需要两种关键能力:(1) 算法理解:从论文和学术文献中综合信息以理解实现逻辑,以及(2) 编码专业知识:识别依赖关系并正确实现必要的API。为了促进严格的评估,我们引入了SciReplicate-Bench,这是一个包含来自2024年36篇NLP论文的100个任务的基准,这些任务配有详细的注释和全面的测试案例。基于SciReplicate-Bench,我们提出了Sci-Reproducer,这是一个由多个代理组成的框架,其中包括文献代理,该代理解释文献中的算法概念,代码代理则从仓库中检索依赖关系并实现解决方案。为了评估算法理解能力,我们引入了推理图准确度这一指标,该指标量化了生成的推理图与从代码注释和结构中提取的参考推理图之间的相似性。对于评估实现质量,我们采用了执行准确度、CodeBLEU以及仓库依赖关系/API召回率等度量标准。在我们的实验中,我们评估了各种强大的非推理LLMs和推理LLMs作为基础模型。使用Sci-Reproducer的最佳表现的LLM仅实现了39%的执行准确度,突显了基准的难度。我们的分析指出,缺失或不一致的算法描述是成功再现的重要障碍。我们将开放源代码benchmark和相关代码,可在https://github.com/xyzCS/SciReplicate-Bench上获取。