摘要
大型语言模型 (LLM) 在包括金融在内的特定领域中的应用迅速扩展。领域特定的 LLM 通常根据其在与该领域相关的各种下游任务中的表现进行评估。在本研究中,我们对微调 LLM 以执行此类任务进行了详细分析。有些令人意外的是,我们发现,在特定领域的情况下,仅针对目标任务进行微调并不总是最有效的策略。相反,多任务微调(模型在相关任务的混合中进行训练)可以显着提高性能。我们展示了这种方法如何使小型模型(如 Phi-3-Mini)能够实现最先进的结果,甚至在金融基准上超越了更大的 GPT-4-o 模型。我们的研究涉及大规模实验,使用多个广泛采用的 LLM 作为基线训练了 200 多个模型,并通过实证证实了多任务微调的优势。此外,我们探讨了使用通用指令数据作为正则化形式,表明它有助于最大限度地减少性能下降。我们还研究了数学数据的纳入,发现数值推理方面的改进有效地转移到了金融任务中。最后,我们注意到,虽然针对下游任务进行微调会导致任务性能的针对性改进,但它并不一定会带来领域知识或复杂领域推理能力的更广泛提升。