LLM2D

摘要

arXiv:2411.00412v3 公告类型: 替换交叉摘要：大型语言模型（LLMs）在解决简单的科学问题方面表现出色，但在解决复杂的科学问题时，即使经过领域特定的微调，也常常会产生幻觉。虽然将LLMs与工具集成可以缓解这种可靠性问题，但仅针对工具使用进行微调的模型往往过度依赖工具，即使对于简单的科学问题也会产生资源密集型的科学工具费用。受到人类专家在选择解决方案之前评估问题复杂程度的启发，我们提出了一种新颖的两步微调方法，即适配学习（Adapting While Learning，AWL）。在第一步中，世界知识学习（WKL），LLMs通过学习工具生成的解决方案来内化科学知识。在第二步中，工具使用适配（TUA），我们根据WKL训练模型的准确性将问题分类为简单或困难，并训练模型在简单问题上保持直接推理，而在困难问题上转向使用工具。我们在气候科学、流行病学和数学领域的6个科学基准数据集上验证了我们的方法。与基础8B模型相比，我们训练的模型在答案准确性上提高了28.27%，在工具使用准确性上提高了13.76%，甚至在4个自定义创建的数据集中超过了包括GPT-4和Claude-3.5在内的最新模型。