LLM2D

摘要

目前，创建训练数据以教授模型的过程是由人类驱动的，人类手动分析模型的弱点，并计划如何创建数据来改进学生模型。最近使用大型语言模型 (LLM) 作为标注者的方法减少了人工工作量，但仍然需要人类来解释评估反馈并控制 LLM 生成学生需要的數據。通过创建自主数据生成代理（或教师）来自动化这个劳动密集型过程是可取的，但这需要能够模拟数据创建的反馈驱动、迭代、闭环的环境。为了实现此类代理及其模块的快速和可扩展测试，我们引入了 DataEnvGym，这是一个用于数据生成代理的教师环境测试平台。DataEnvGym 将数据生成框定为一个顺序决策任务，涉及一个代理，该代理包含一个数据生成策略（生成创建训练数据的计划）和一个数据生成引擎（将计划转换为数据），在一个提供学生反馈的环境中。代理的目标是提高学生表现。学生在生成的数据上进行迭代训练和评估，每次迭代后都会将他们的反馈（以错误或薄弱技能的形式）报告给代理。DataEnvGym 包含跨越状态表示和动作空间中 3 个结构级别、多个教师环境实例。结构更强的环境基于推断的技能，并提供更多可解释性和课程控制。我们支持 3 个不同的任务（数学、代码和 VQA），并测试多个学生和教师。我们教学环境中的示例代理可以迭代地提高跨任务和设置的学生。此外，我们表明环境教授不同的技能水平，并测试关键模块的变体，这指出了未来在改进数据生成代理、引擎和反馈机制方面的工作。