LLM2D

摘要

arXiv:2505.07897v1 类型: cross 摘要：模型的上下文长度已经迅速增长，从几千个词元增加到数百万个词元，仅仅用了几年时间。现代大上下文模型的极端上下文大小使得构建现实的大上下文基准变得困难——不仅因为收集百万级上下文任务的成本高昂，还因为在实际场景中找到需要大量上下文的情况较为困难。我们发现代码理解与修复可以作为测试大上下文模型的自然试验床和挑战任务，并引入了LongCodeBench（LCB），用来测试大语言模型（LLMs）在大上下文场景中的编程能力。我们的基准测试涵盖了实际和重要的场景，通过从GitHub issues中获取实际数据并构建问答（LongCodeQA）和漏洞修复（LongSWE-Bench）任务来测试LCLMs的理解和修复能力。我们精确地对基准的复杂性进行了分层，使我们能够对不同规模的模型进行评估——从Qwen2.5 14B Instruct到Google的旗舰Gemini模型。我们发现大上下文仍然是所有模型的弱点，例如Claude 3.5 Sonnet的性能从29%下降到3%，Qwen2.5的性能从70.2%下降到40%。