摘要
开放权重大型语言模型(LLMs)是为特定领域的服务机器人应用微调代码 LLMs 生成训练数据的特别有吸引力的选择,因为它们具有成本效益、可定制且提供更好的隐私保护。然而,与专有 LLMs 不同,开放权重模型更容易出错,并且经常生成违反特定领域约束的程序。一个有希望的解决方案是将机器人模拟器与定义明确的环境相结合,以验证程序的正确性。然而,这些环境需要预先枚举相关实体及其状态,这限制了可以有效验证的程序的多样性。在这项工作中,我们引入了 ROBO-INSTRUCT,它保留了 LLM 生成的程序的多样性,同时提供了基于模拟器的检查的正确性。ROBO-INSTRUCT 引入了 ROBOSIM,为每个生成的程序动态合成一致的模拟环境。此外,ROBO-INSTRUCT 通过 INSTALIGN 处理更微妙的指令-程序不一致,这些不一致不会导致约束违反,INSTALIGN 是一个 LLM 辅助的指令-程序对齐过程。给定特定领域的 API 和一些种子示例,ROBO-INSTRUCT 可以利用 8B Llama3 模型生成训练数据集,用于微调 7B CodeLlama 模型。我们微调后的模型在 pass@1 上比原始基础模型提高了 28.75%,比其 SELF-INSTRUCT 微调的对应模型提高了 13.75%,甚至超过了 GPT-3.5-Turbo 和 Gemini-Pro 等一些专有 LLMs 的性能。