LLM2D

摘要

arXiv:2502.11433v3 公告类型：替换摘要：大型语言模型（LLMs）在多模态金融数据上进行微调后，在各种金融任务中展现了令人印象深刻的推理能力。然而，它们在互动金融市场中的多步、目标导向场景（如交易）中常常表现出色，需要复杂的代理方法来提高决策制定。为了解决这个问题，我们提出了FLAG-Trader，这是一种统一的架构，将语言处理（通过LLMs）与梯度驱动的强化学习（RL）策略优化结合起来，在这种架构中，部分微调的LLM作为策略网络工作，利用预训练的知识并在财务领域通过参数高效的微调进行适应。通过由交易奖励驱动的策略梯度优化，我们的框架不仅提高了LLM在交易中的表现，还提高了其他财务领域任务的结果。我们提供了大量的实证证据来验证这些改进。