LLM2D
BugCraft:使用 Minecraft 中的 LLM 代理实现端到端的崩溃 bug 重现
BugCraft: End-to-End Crash Bug Reproduction Using LLM Agents in Minecraft
作者: Eray Yapa\u{g}c{\i}, Yavuz Alp Sencer \"Ozt\"urk, Eray T\"uz\"un
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.20036v1

摘要

arXiv:2503.20036v1 交叉类型:cross 摘要:重现游戏bug,特别是像Minecraft这样的不断进化的游戏中的崩溃bug,是一个众所周知的、手动的、耗时的、具有挑战性的自动化过程。尽管基于LLM的bug重现已经在其他软件领域取得了成功,但由于游戏具有复杂的交互环境,它们仍然被很大程度上忽视。本文介绍了一种名为BugCraft的新颖端到端框架,旨在直接从用户提交的bug报告中自动化重现Minecraft中的崩溃bug,填补了自动化游戏bug重现的关键缺口。BugCraft采用两阶段方法:首先,Step Synthesizer利用LLM和Minecraft Wiki的知识,将bug报告转换为高质量的结构化步骤以重现(S2R)。其次,由基于视觉的LLM代理(GPT-4o)和自定义宏API提供支持的动作模型,在Minecraft中执行这些S2R步骤以触发报告的崩溃。为了便于评估,我们引入了BugCraft-Bench,这是一个精心策划的Minecraft崩溃bug报告数据集。在BugCraft-Bench上的评估表明,我们的框架成功地端到端地重现了30.23%的崩溃bug。Step Synthesizer在生成正确的bug重现计划方面的准确率为66.28%,突显了其在解释和结构化bug报告信息方面的有效性。BugCraft展示了使用LLM在复杂游戏环境中自动化重现崩溃bug的可行性,为游戏测试和开发开启了有希望的道路。该框架和BugCraft-Bench数据集为未来在自动化游戏bug分析方面的研究铺平了道路,并有可能泛化到其他交互式游戏平台。最后,我们在https://bugcraft2025.github.io/开源了我们的代码。