LLM2D
提高大型语言模型规划能力的方法序列相似性
Improving Large Language Model Planning with Action Sequence Similarity
作者: Xinran Zhao, Hanie Sedghi, Bernd Bohnet, Dale Schuurmans, Azade Nova
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2505.01009v1

摘要

arXiv:2505.01009v1 规划类型: 新 摘要: 规划对于人工智能系统至关重要,它们需要提前思考并主动决定一系列行动以在虚拟和现实世界中实现目标。最近关于大型语言模型(LLMs)的研究揭示了它们在各种任务中规划能力的可能性。然而,上下文中的哪些信号影响模型性能仍不清楚。在本工作中,我们探索如何通过上下文学习(ICL)提高模型的规划能力,特别是哪些信号有助于选择范例。通过广泛的实验,我们发现常用的示例问题相似性可能导致完全不同的规划方案,从而误导模型。为应对这一问题,我们提出了一种基于规划辅助动作序列相似性(AS)的范例采样和过滤方法。我们提出了GRASE-DC:一个两阶段的管道,首先重新采样高AS范例,然后通过AS动态聚类精选范例,以实现相关性和多样性的平衡。我们的实验结果证实,GRASE-DC在各种规划任务中取得了显著的性能提升(绝对准确性最多提升11-40点,平均所需的范例数量减少27.3%)。通过GRASE-DC* + VAL,我们迭代应用GRASE-DC并使用验证器,能够进一步将性能提升18.9%。 广泛的分析验证了GRASE-DC在各种基础LLMs和古典规划基准以及自然语言规划基准中的持续性能提升。GRASE-DC还能通过使用简单问题作为范例,在难以解决的问题上将规划准确性进一步提升约24个绝对点,这表明它具备对分布外问题的泛化能力。