摘要
arXiv:2502.06589v1 支持类型:交叉
摘要:由于缺乏面向代理的预训练数据,基于大语言模型的自主代理通常依赖于复杂的提示或广泛的微调,而这通常难以引入新的能力同时保持强大的泛化能力。我们提出了Hephaestus-Forge,这是第一个大规模预训练语料库,旨在增强大语言模型(LLM)代理在API函数调用、内在推理和规划以及适应环境反馈方面的基本能力。Hephaestus-Forge包括103B与76,537个API相关的代理特定数据,这些API涵盖了从工具文档中引入API功能知识,以及功能调用轨迹以加强内在推理。为了探索有效的训练协议,我们研究了缩放定律以识别数据混合比例的最佳配方。通过持续在Hephaestus-Forge上进行预训练,Hephaestus在三个代理基准测试中优于小到中规模的开源LLM,并且与商业LLM处于竞争状态,这证明了我们预训练语料库在增强基础代理能力和提高LLM对新任务或环境泛化方面的有效性。