摘要
arXiv:2503.21557v1 通告类型: 新增
摘要: 大型语言模型(LLMs)在编码任务中的应用越来越广泛,但在大多数情况下,假设所有相关的信息都可以通过上下文访问或与它们的训练数据相匹配。我们认为,LLMs 可以从具有交互式探索代码库的能力中获益,以便收集对其任务相关的信息。为了实现这一目标,我们提出了一种文本环境,名为 debug-gym,用于在交互式编程环境中开发基于LLM的代理。我们的环境轻量级,并提供了一系列有用的工具,例如 Python 调试器(pdb),旨在促进基于LLM的代理的交互式调试。除了编码和调试任务外,这种方法还可以泛化到其他可以通过LLM代理的信息寻求行为获益的任务。