摘要
arXiv:2502.11433v1 宣告类型: 新
摘要: 在多模态金融数据上进行微调的大语言模型(nLLMs)在各种金融任务中展现出了令人印象深刻的推理能力。然而,它们在交互式金融市场中,如交易这类涉及多步骤和目标导向场景的情况下,往往难以应对,这需要复杂的代理方法来提高决策制定能力。为了解决这一问题,我们提出了一种名为 \textsc{FLAG-Trader} 的统一架构,该架构将基于语言处理(通过大语言模型)与基于梯度的强化学习(RL)策略优化相结合,在这种架构中,部分微调的大语言模型作为策略网络运行,利用预训练知识并通过参数高效微调适应金融领域。通过由交易奖励驱动的策略梯度优化,我们的框架不仅提高了大语言模型在交易中的表现,还改善了其他金融领域任务的结果。我们提供了大量实验证据来验证这些改进。