LLM2D

摘要

arXiv:2502.06589v1 支持类型：交叉摘要：由于缺乏面向代理的预训练数据，基于大语言模型的自主代理通常依赖于复杂的提示或广泛的微调，而这通常难以引入新的能力同时保持强大的泛化能力。我们提出了Hephaestus-Forge，这是第一个大规模预训练语料库，旨在增强大语言模型（LLM）代理在API函数调用、内在推理和规划以及适应环境反馈方面的基本能力。Hephaestus-Forge包括103B与76,537个API相关的代理特定数据，这些API涵盖了从工具文档中引入API功能知识，以及功能调用轨迹以加强内在推理。为了探索有效的训练协议，我们研究了缩放定律以识别数据混合比例的最佳配方。通过持续在Hephaestus-Forge上进行预训练，Hephaestus在三个代理基准测试中优于小到中规模的开源LLM，并且与商业LLM处于竞争状态，这证明了我们预训练语料库在增强基础代理能力和提高LLM对新任务或环境泛化方面的有效性。