摘要
工具学习作为大型语言模型(LLMs)与物理世界互动的重要手段,引起了广泛关注。当前研究主要强调LLMs在结构良好的环境中使用工具的能力,而忽视了它们在面对现实世界不可避免的噪声时的稳定性。为弥补这一差距,我们引入了RoTBench,一个用于评估LLMs在工具学习中鲁棒性的多级基准。具体而言,我们建立了五个外部环境,每个环境具有不同程度的噪声(即干净、轻微、中等、严重和综合),对模型在三个关键阶段(工具选择、参数识别和内容填充)的韧性进行深入分析。对六种广泛使用的模型进行的实验突显出提高LLMs在工具学习中鲁棒性的迫切必要性。例如,当手动准确性没有显著变化时,GPT-4的性能甚至从80.00显著下降到58.10。更令人惊讶的是,GPT系列固有的噪声校正能力反而妨碍了其在轻微噪声下的适应性。鉴于这些发现,我们提出了RoTTuning,一种通过丰富训练环境的多样性来增强LLMs在工具学习中鲁棒性的策略。代码和数据可在https://github.com/Junjie-Ye/RoTBench获得。