摘要
目前,创建训练数据以教授模型的过程是由人类驱动的,人类手动分析模型的弱点,并计划如何创建数据来改进学生模型。最近使用大型语言模型 (LLM) 作为标注者的方法减少了人工工作量,但仍然需要人类来解释评估反馈并控制 LLM 生成学生需要的數據。通过创建自主数据生成代理(或教师)来自动化这个劳动密集型过程是可取的,但这需要能够模拟数据创建的反馈驱动、迭代、闭环的环境。为了实现此类代理及其模块的快速和可扩展测试,我们引入了 DataEnvGym,这是一个用于数据生成代理的教师环境测试平台。DataEnvGym 将数据生成框定为一个顺序决策任务,涉及一个代理,该代理包含一个数据生成策略(生成创建训练数据的计划)和一个数据生成引擎(将计划转换为数据),在一个提供学生反馈的环境中。代理的目标是提高学生表现。学生在生成的数据上进行迭代训练和评估,每次迭代后都会将他们的反馈(以错误或薄弱技能的形式)报告给代理。DataEnvGym 包含跨越状态表示和动作空间中 3 个结构级别、多个教师环境实例。结构更强的环境基于推断的技能,并提供更多可解释性和课程控制。我们支持 3 个不同的任务(数学、代码和 VQA),并测试多个学生和教师。我们教学环境中的示例代理可以迭代地提高跨任务和设置的学生。此外,我们表明环境教授不同的技能水平,并测试关键模块的变体,这指出了未来在改进数据生成代理、引擎和反馈机制方面的工作。