LLM2D

摘要

大型语言模型在配备外部工具和 API 调用时，作为自主代理表现出令人印象深刻的价值。然而，有效地利用它们的潜力来执行复杂任务，关键在于增强其函数调用能力。本文确定了现有函数调用模型中的一个关键差距，即在不同基准测试中性能差异很大，这通常是由于被特定的命名约定误导造成的。为了解决这个问题，我们引入了 Hammer，一个专门为设备上函数调用而设计的新型基础模型家族。Hammer 采用了一个增强的数据集，增强了模型对无关函数的敏感性，并结合了函数屏蔽技术来最大程度地减少误导。我们的实证评估表明，Hammer 不仅优于更大的模型，而且在各种基准测试中展示了强大的泛化能力，取得了最先进的结果。我们的开源贡献包括一个专门用于无关性检测的数据集、一个用于增强泛化的调整框架以及 Hammer 模型，为函数调用性能树立了新的标准。