LLM2D

摘要

arXiv:2502.08806v1 类型：交叉摘要：软件测试是软件开发的一个关键方面，然而生成测试案例仍然是工程师的一项常规任务。本文介绍了一个基准测试，称为CLOVER，用于评估模型在特定条件下生成和完成测试案例的能力。这些任务从简单的断言完成扩展到涵盖多个文件中的特定代码块的测试案例编写，基于12个Python仓库，分析了845个问题，上下文长度从4k到128k不等。利用代码测试框架，我们提出了一种方法，使用覆盖信息构建检索上下文。虽然模型在短上下文下的性能相当，但在16k上下文时，差异明显。值得注意的是，如GPT-4o和Claude 3.5等模型能够有效地利用相关片段；然而，所有模型在复杂任务III中得分均低于35%，即使提供了 oracle 上下文。这突显了基准测试的重要性及其为模型改进提供的潜力。该基准测试容器化以便跨任务执行代码，并且我们将发布代码、数据和构建方法。