LLM2D
罗bo-Instruct:模拟器增强的指令对齐细调代码LLM
Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning Code LLMs
作者: Zichao Hu, Junyi Jessy Li, Arjun Guha, Joydeep Biswas
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2405.20179v3

摘要

arXiv:2405.20179v3 宣告类型: replace-cross 摘要:代码大型语言模型已经在将自然语言任务转换为可由服务机器人执行的程序方面展示了有希望的结果。我们对为此目的微调小型、专门化的大型语言模型感兴趣,但收集针对每台机器人专门的任务-程序对数据集耗费时间和成本。虽然 SELF-INSTRUCT 和 EVOL-INSTRUCT 等方法能够在少量示例的基础上生成新的任务,但它们无法使用提供的编程接口生成相应的程序,这些程序能够遵守物理世界和机器人约束。使用模拟器是一个检查此类约束的自然潜在解决方案,但构建能够处理任意任务及其所需对象和位置的模拟环境具有挑战性。为了应对这些挑战,我们提出了 ROBO-INSTRUCT,该方法在程序执行过程中根据实体在任务程序中的使用情况即刻合成任务专用的模拟环境,并以机会性的方式推断实体的属性并基于这些属性施加相应的约束。此外,ROBO-INSTRUCT 结合了基于大型语言模型的后处理程序,以改进指令与机器人程序的对齐。我们在多个大型语言模型上展示了 ROBO-INSTRUCT 的有效性,结果显示,我们的微调模型超过了所有基线方法,并且在某些情况下甚至能够匹配或超越几个较大且专有的模型的性能。