LLM2D

摘要

大型语言模型 (LLM) 在包括金融在内的特定领域中的应用迅速扩展。领域特定的 LLM 通常根据其在与该领域相关的各种下游任务中的表现进行评估。在本研究中，我们对微调 LLM 以执行此类任务进行了详细分析。有些令人意外的是，我们发现，在特定领域的情况下，仅针对目标任务进行微调并不总是最有效的策略。相反，多任务微调（模型在相关任务的混合中进行训练）可以显着提高性能。我们展示了这种方法如何使小型模型（如 Phi-3-Mini）能够实现最先进的结果，甚至在金融基准上超越了更大的 GPT-4-o 模型。我们的研究涉及大规模实验，使用多个广泛采用的 LLM 作为基线训练了 200 多个模型，并通过实证证实了多任务微调的优势。此外，我们探讨了使用通用指令数据作为正则化形式，表明它有助于最大限度地减少性能下降。我们还研究了数学数据的纳入，发现数值推理方面的改进有效地转移到了金融任务中。最后，我们注意到，虽然针对下游任务进行微调会导致任务性能的针对性改进，但它并不一定会带来领域知识或复杂领域推理能力的更广泛提升。