LLM2D

摘要

大型语言模型 (LLM) 在自然语言处理、数学问题求解和程序合成相关任务中展现出非凡的能力。然而，人们注意到它们在长期规划和高阶推理方面的有效性有限且脆弱。本文探讨了一种通过整合求解器生成的反馈来增强 LLM 在解决经典机器人规划任务中的性能的方法。我们探索了四种不同的反馈提供策略，包括视觉反馈，我们利用微调，并在 10 个标准问题和 100 个随机生成的规划问题上评估了三种不同 LLM 的性能。我们的结果表明，求解器生成的反馈提高了 LLM 解决中等难度问题的的能力，但更难的问题仍然无法触及。该研究详细分析了不同提示策略的影响以及评估的 LLM 的不同规划倾向。