LLM2D

摘要

arXiv:2504.13472v1 宣布类型: cross 摘要: 大规模语言模型（LLMs）在代码生成方面展示了强大的能力，强调了对严谨而全面的评估的迫切需求。现有的评估方法分为三种类型，包括以人为中心的、基于指标的和基于LLM的。鉴于以人为中心的方法劳动密集型，而基于指标的方法过度依赖参考答案，由于它们更强的上下文理解能力和更高的效率，基于LLM的方法正越来越受到关注。然而，基于LLM的方法的性能仍受到以下限制的制约：(1) 缺乏多源领域知识，(2) 对复杂代码的理解不足。为了克服上述局限性，我们提出了CodeVisionary，这是一种用于代码生成评估的第一个基于LLM的代理框架。CodeVisionary包括两个阶段：(1) 多分数知识分析阶段，旨在通过制定和执行逐步的评估计划来收集多源和全面的领域知识。(2) 基于谈判的评分阶段，涉及多名评委进行讨论，以更好地理解复杂的代码并就评估分数达成一致。广泛的实验表明，CodeVisionary在代码生成评估方面表现最佳，与最佳基线方法相比，在皮尔逊、斯皮尔曼和肯德尔-泰尔系数中分别平均提高了0.202、0.139和0.117。此外，CodeVisionary提供了详细的评估报告，有助于开发者识别不足并进行改进。CodeVisionary的资源可在 https://anonymous.4open.science/r/CodeVisionary 获取。