摘要
arXiv:2504.13472v1 宣布类型: cross
摘要: 大规模语言模型(LLMs)在代码生成方面展示了强大的能力,强调了对严谨而全面的评估的迫切需求。现有的评估方法分为三种类型,包括以人为中心的、基于指标的和基于LLM的。鉴于以人为中心的方法劳动密集型,而基于指标的方法过度依赖参考答案,由于它们更强的上下文理解能力和更高的效率,基于LLM的方法正越来越受到关注。然而,基于LLM的方法的性能仍受到以下限制的制约:(1) 缺乏多源领域知识,(2) 对复杂代码的理解不足。
为了克服上述局限性,我们提出了CodeVisionary,这是一种用于代码生成评估的第一个基于LLM的代理框架。CodeVisionary包括两个阶段:(1) 多分数知识分析阶段,旨在通过制定和执行逐步的评估计划来收集多源和全面的领域知识。(2) 基于谈判的评分阶段,涉及多名评委进行讨论,以更好地理解复杂的代码并就评估分数达成一致。广泛的实验表明,CodeVisionary在代码生成评估方面表现最佳,与最佳基线方法相比,在皮尔逊、斯皮尔曼和肯德尔-泰尔系数中分别平均提高了0.202、0.139和0.117。此外,CodeVisionary提供了详细的评估报告,有助于开发者识别不足并进行改进。CodeVisionary的资源可在 https://anonymous.4open.science/r/CodeVisionary 获取。