摘要
arXiv:2502.11433v3 公告类型:替换
摘要:大型语言模型(LLMs)在多模态金融数据上进行微调后,在各种金融任务中展现了令人印象深刻的推理能力。然而,它们在互动金融市场中的多步、目标导向场景(如交易)中常常表现出色,需要复杂的代理方法来提高决策制定。为了解决这个问题,我们提出了FLAG-Trader,这是一种统一的架构,将语言处理(通过LLMs)与梯度驱动的强化学习(RL)策略优化结合起来,在这种架构中,部分微调的LLM作为策略网络工作,利用预训练的知识并在财务领域通过参数高效的微调进行适应。通过由交易奖励驱动的策略梯度优化,我们的框架不仅提高了LLM在交易中的表现,还提高了其他财务领域任务的结果。我们提供了大量的实证证据来验证这些改进。