摘要
arXiv:2502.11433v2 通知类型: 新
摘要:在多模态金融数据上微调的大规模语言模型(LLMs)在各种金融任务中展现了令人印象深刻的推理能力。然而,它们在交互金融市场中的多步、目标导向场景(如交易)中常常难以应对,这时需要复杂的代理方法来改进决策。为了解决这个问题,我们提出了一种名为 \textsc{FLAG-Trader} 的统一架构,该架构将语言处理(通过LLMs)与基于梯度的强化学习(RL)策略优化相结合,在这种架构中,部分微调的LLM充当策略网络,利用预训练的知识并通过对金融领域的参数高效微调适应该领域。通过由交易奖励驱动的策略梯度优化,我们的框架不仅增强了LLM在交易中的性能,还提高了其他金融领域任务的结果。我们提供了广泛的实验证据来验证这些增强效果。