摘要
arXiv:2411.00412v2 宣告类型: replace-cross
摘要:大型语言模型(LLMs)在解决简单科学问题方面表现出色,但在处理复杂问题时,即使经过领域特定的微调,往往也会产生幻觉。虽然将LLMs与工具集成可以减轻这一可靠性问题,但专门针对工具使用的微调模型往往过度依赖这些工具,在需要资源密集型科学工具的简单问题上产生不必要的成本。受到人类专家在选择解决方案前评估问题复杂性的启发,我们提出了一种新颖的两组件微调方法,即Adapting While Learning(AWL)。在第一部分,World Knowledge Learning(WKL)中,LLMs通过学习工具生成的解决方案来内化科学知识。在第二部分,Tool Usage Adaptation(TUA)中,我们根据WKL训练模型的准确性将问题分类为易于解决或难以解决,并对其进行训练,使其能够保持对简单问题的直接推理,而在处理有挑战性的问题时使用工具。我们使用来自气候科学、流行病学和数学的6个科学基准数据集对这种方法进行了验证。与基准8B模型相比,我们的训练模型在答案准确性方面提高了28.27%,在工具使用准确性方面提高了13.76%,甚至在4个自定义创建的数据集上超过了包括GPT-4和Claude-3.5在内的最新模型。