LLM2D

摘要

工具学习作为大型语言模型（LLMs）与物理世界互动的重要手段，引起了广泛关注。当前研究主要强调LLMs在结构良好的环境中使用工具的能力，而忽视了它们在面对现实世界不可避免的噪声时的稳定性。为弥补这一差距，我们引入了RoTBench，一个用于评估LLMs在工具学习中鲁棒性的多级基准。具体而言，我们建立了五个外部环境，每个环境具有不同程度的噪声（即干净、轻微、中等、严重和综合），对模型在三个关键阶段（工具选择、参数识别和内容填充）的韧性进行深入分析。对六种广泛使用的模型进行的实验突显出提高LLMs在工具学习中鲁棒性的迫切必要性。例如，当手动准确性没有显著变化时，GPT-4的性能甚至从80.00显著下降到58.10。更令人惊讶的是，GPT系列固有的噪声校正能力反而妨碍了其在轻微噪声下的适应性。鉴于这些发现，我们提出了RoTTuning，一种通过丰富训练环境的多样性来增强LLMs在工具学习中鲁棒性的策略。代码和数据可在https://github.com/Junjie-Ye/RoTBench获得。