LLM2D

摘要

开放权重大型语言模型（LLMs）是为特定领域的服务机器人应用微调代码 LLMs 生成训练数据的特别有吸引力的选择，因为它们具有成本效益、可定制且提供更好的隐私保护。然而，与专有 LLMs 不同，开放权重模型更容易出错，并且经常生成违反特定领域约束的程序。一个有希望的解决方案是将机器人模拟器与定义明确的环境相结合，以验证程序的正确性。然而，这些环境需要预先枚举相关实体及其状态，这限制了可以有效验证的程序的多样性。在这项工作中，我们引入了 ROBO-INSTRUCT，它保留了 LLM 生成的程序的多样性，同时提供了基于模拟器的检查的正确性。ROBO-INSTRUCT 引入了 ROBOSIM，为每个生成的程序动态合成一致的模拟环境。此外，ROBO-INSTRUCT 通过 INSTALIGN 处理更微妙的指令-程序不一致，这些不一致不会导致约束违反，INSTALIGN 是一个 LLM 辅助的指令-程序对齐过程。给定特定领域的 API 和一些种子示例，ROBO-INSTRUCT 可以利用 8B Llama3 模型生成训练数据集，用于微调 7B CodeLlama 模型。我们微调后的模型在 pass@1 上比原始基础模型提高了 28.75%，比其 SELF-INSTRUCT 微调的对应模型提高了 13.75%，甚至超过了 GPT-3.5-Turbo 和 Gemini-Pro 等一些专有 LLMs 的性能。