LLM2D
使用OpenAI推理模型进行Web应用编码的案例研究
A Case Study of Web App Coding with OpenAI Reasoning Models
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13773v1

摘要

arXiv:2409.13773v1 公告类型: 交叉 摘要: 本文通过最新推理模型OpenAI的o1-preview和o1-mini与其他前沿模型进行对比,对编码任务进行了案例研究。o1模型在WebApp1K这一单任务基准测试中取得了SOTA结果。为此,我们引入了WebApp1K-Duo,这是一个更难的基准测试,任务和测试用例数量翻倍。新的基准测试导致o1模型的性能显著下降,落后于Claude 3.5。此外,面对非典型但正确的测试用例时,它们持续失败,而这种陷阱非推理模型偶尔能够避免。我们假设性能变异性源于指令理解。具体而言,推理机制在所有预期被捕捉时提升性能,而在关键预期被遗漏时加剧错误,可能受输入长度影响。因此,我们认为推理模型的编码成功依赖于顶尖的基础模型和SFT,以确保对指令的细致遵循。