LLM2D

摘要

arXiv:2501.04961v2 宣告类型: replace-cross 摘要：针对医学和金融等专业领域的大型语言模型（LLMs）的后训练适应性方法已经崭露头角，并显示出巨大的潜力。然而，仍面临识别最佳适应标准和培训策略的重大挑战，特别是在数据和模型配置各异的情况下。为应对这些挑战，我们引入了FINDAP，一种系统且细致的研究方法，以探索金融领域中LLMs的适应性后训练。该方法由四个关键组件组成：FinCap，定义了目标领域所需的核心能力；FinRec，一种有效的培训食谱，能够同时优化持续预训练和指令跟随，并采用一种新颖的偏好数据蒸馏方法，利用生成奖励模型中的过程信号；FinTrain，支持FinRec的一系列精心策划的训练数据集；以及FinEval，与FinCap对齐的全面评估套件。最终模型Llama-Fin在一系列金融任务中均取得了最先进的性能。我们的分析还揭示了每个后训练阶段如何贡献于不同的能力，揭示了特定的挑战和有效的解决方案，为LLMs在领域的适应提供了宝贵的见解。