摘要
arXiv:2411.00412v2 宣告类型: 替换-交叉
摘要:大型语言模型(LLMs)在解决简单的科学问题方面展现了令人鼓舞的能力,但在解决复杂的问题时,即使进行了领域特定的微调,仍然常常会产生幻觉。尽管将LLMs与工具集成可以缓解这一可靠性问题,但仅基于工具使用进行微调的模型往往过度依赖工具,即使对于简单的科学问题,也会导致因使用资源密集型科学工具而产生的不必要的成本。受到人类专家在选择解决方案之前评估问题复杂性的启发,我们提出了一种新的两组件微调方法,称为适配与学习(Adapting While Learning,AWL)。第一组件是世界知识学习(WKL),通过从工具生成的解决方案中学习,LLMs内化科学知识。第二组件是工具使用适应(TUA),我们基于WKL训练模型的准确度将问题分类为简单或困难,并训练该模型在处理简单问题时保持直接推理,在处理挑战性问题时切换到使用工具。我们在气候科学、流行病学和数学领域的6个科学基准数据集上验证了该方法。与基础的8B模型相比,我们的训练模型的答题准确率提高了28.27%,工具使用准确率提高了13.76%,甚至在4个自定义创建的数据集上超过了包括GPT-4和Claude-3.5在内的最先进模型。