LLM2D

摘要

arXiv:2411.00412v2 宣告类型: 替换-交叉摘要：大型语言模型（LLMs）在解决简单的科学问题方面展现了令人鼓舞的能力，但在解决复杂的问题时，即使进行了领域特定的微调，仍然常常会产生幻觉。尽管将LLMs与工具集成可以缓解这一可靠性问题，但仅基于工具使用进行微调的模型往往过度依赖工具，即使对于简单的科学问题，也会导致因使用资源密集型科学工具而产生的不必要的成本。受到人类专家在选择解决方案之前评估问题复杂性的启发，我们提出了一种新的两组件微调方法，称为适配与学习（Adapting While Learning，AWL）。第一组件是世界知识学习（WKL），通过从工具生成的解决方案中学习，LLMs内化科学知识。第二组件是工具使用适应（TUA），我们基于WKL训练模型的准确度将问题分类为简单或困难，并训练该模型在处理简单问题时保持直接推理，在处理挑战性问题时切换到使用工具。我们在气候科学、流行病学和数学领域的6个科学基准数据集上验证了该方法。与基础的8B模型相比，我们的训练模型的答题准确率提高了28.27%，工具使用准确率提高了13.76%，甚至在4个自定义创建的数据集上超过了包括GPT-4和Claude-3.5在内的最先进模型。