LLM2D

摘要

arXiv:2502.11433v2 通知类型: 新摘要：在多模态金融数据上微调的大规模语言模型（LLMs）在各种金融任务中展现了令人印象深刻的推理能力。然而，它们在交互金融市场中的多步、目标导向场景（如交易）中常常难以应对，这时需要复杂的代理方法来改进决策。为了解决这个问题，我们提出了一种名为 \textsc{FLAG-Trader} 的统一架构，该架构将语言处理（通过LLMs）与基于梯度的强化学习（RL）策略优化相结合，在这种架构中，部分微调的LLM充当策略网络，利用预训练的知识并通过对金融领域的参数高效微调适应该领域。通过由交易奖励驱动的策略梯度优化，我们的框架不仅增强了LLM在交易中的性能，还提高了其他金融领域任务的结果。我们提供了广泛的实验证据来验证这些增强效果。