LLM2D

摘要

大型语言模型在配备外部工具和 API 调用时，已展现出作为自主代理的非凡价值。然而，有效地利用其潜力执行复杂任务，关键在于增强其函数调用能力。本文指出了现有函数调用模型中的一个关键差距，即性能在不同基准测试之间差异显著，这通常是由于特定命名约定造成的误导。为了解决这一问题，我们引入了 Hammer，一个专门为设备上函数调用而设计的全新基础模型系列。Hammer 采用增强的数据集，提高模型对无关函数的敏感度，并结合函数屏蔽技术，最大程度地减少误导。我们的实证评估表明，Hammer 不仅优于更大的模型，而且在各种基准测试中展现出强大的泛化能力，取得了最先进的结果。我们的开源贡献包括一个专门用于无关性检测的数据集、一个用于增强泛化的调优框架以及 Hammer 模型，为函数调用性能设定了新的标准。