LLM2D

摘要

arXiv:2411.00412v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在解决简单科学问题方面表现出色，但在处理复杂问题时，即使经过领域特定的微调，往往也会产生幻觉。虽然将LLMs与工具集成可以减轻这一可靠性问题，但专门针对工具使用的微调模型往往过度依赖这些工具，在需要资源密集型科学工具的简单问题上产生不必要的成本。受到人类专家在选择解决方案前评估问题复杂性的启发，我们提出了一种新颖的两组件微调方法，即Adapting While Learning（AWL）。在第一部分，World Knowledge Learning（WKL）中，LLMs通过学习工具生成的解决方案来内化科学知识。在第二部分，Tool Usage Adaptation（TUA）中，我们根据WKL训练模型的准确性将问题分类为易于解决或难以解决，并对其进行训练，使其能够保持对简单问题的直接推理，而在处理有挑战性的问题时使用工具。我们使用来自气候科学、流行病学和数学的6个科学基准数据集对这种方法进行了验证。与基准8B模型相比，我们的训练模型在答案准确性方面提高了28.27%，在工具使用准确性方面提高了13.76%，甚至在4个自定义创建的数据集上超过了包括GPT-4和Claude-3.5在内的最新模型。