LLM2D

摘要

arXiv:2504.16027v1 声称类型: cross 摘要：确定最有效的大型语言模型以检测代码异味是一项复杂挑战。本文介绍了一种结构化的方法和评估矩阵来解决这一问题，利用了一个精心标注了已知异味的代码样本数据集。该数据集涵盖了四种主流编程语言Java、Python、JavaScript和C++，允许进行跨语言比较。我们使用精确度、召回率和F1分数作为评估指标，对两种最先进的LLM——OpenAI GPT 4.0和DeepSeek-V3进行了基准测试。我们的分析涵盖了三个详细级别：总体性能、类别性能和单个代码异味类型性能。此外，我们探索了成本效益，通过对GPT 4.0基于token的检测方法与DeepSeek V3采用的模式匹配技术进行比较。研究中还进行了成本分析，将其与SonarQube等传统静态分析工具进行了比较。研究结果为实践者提供了有价值的意见，指导他们选择一种高效、成本效益高的自动代码异味检测解决方案。