LLM2D

摘要

arXiv:2409.13773v1 公告类型: 交叉摘要: 本文通过最新推理模型OpenAI的o1-preview和o1-mini与其他前沿模型进行对比，对编码任务进行了案例研究。o1模型在WebApp1K这一单任务基准测试中取得了SOTA结果。为此，我们引入了WebApp1K-Duo，这是一个更难的基准测试，任务和测试用例数量翻倍。新的基准测试导致o1模型的性能显著下降，落后于Claude 3.5。此外，面对非典型但正确的测试用例时，它们持续失败，而这种陷阱非推理模型偶尔能够避免。我们假设性能变异性源于指令理解。具体而言，推理机制在所有预期被捕捉时提升性能，而在关键预期被遗漏时加剧错误，可能受输入长度影响。因此，我们认为推理模型的编码成功依赖于顶尖的基础模型和SFT，以确保对指令的细致遵循。