LLM2D

摘要

arXiv:2504.15716v1 Announce Type: new 摘要：有效的推理仍然是大型语言模型（LLMs）在金融领域面临的核心挑战，因为任务往往需要特定领域的知识、精确的数值计算以及严格的合规性规则遵守。我们提出了DianJin-R1，这是一种通过推理增强监督和强化学习来应对这些挑战的推理增强框架。我们方法的核心是DianJin-R1-Data，这是一个高质量的数据集，由CFLUE、FinQA和一个专有的合规性语料库（中国合规检查，CCC）构建而成，结合了多样的金融推理场景和经过验证的注释。我们的模型DianJin-R1-7B和DianJin-R1-32B是从Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct微调而来的，并采用结构化格式生成推理步骤和最终答案。为了进一步提高推理质量，我们应用了Group Relative Policy Optimization（GRPO），这是一种强化学习方法，结合了双奖励信号：一个鼓励结构化的输出，另一个奖励答案的正确性。我们分别在五个基准上评估了我们的模型：三个金融数据集（CFLUE、FinQA和CCC）和两个通用推理基准（MATH-500和GPQA-Diamond）。实验结果表明，DianJin-R1模型在复杂金融任务上始终优于其非推理版本。此外，在实际的CCC数据集上，我们的单次调用推理模型的表现与甚至超过了需要显著更高计算成本的多智能体系统。这些发现表明，DianJin-R1通过结构化监督和奖励对齐学习有效地增强了金融推理，提供了一个可扩展且实用的解决方案，适用于实际应用。