LLM2D

摘要

arXiv:2502.11433v1 宣告类型: 新摘要: 在多模态金融数据上进行微调的大语言模型(nLLMs)在各种金融任务中展现出了令人印象深刻的推理能力。然而，它们在交互式金融市场中，如交易这类涉及多步骤和目标导向场景的情况下，往往难以应对，这需要复杂的代理方法来提高决策制定能力。为了解决这一问题，我们提出了一种名为 \textsc{FLAG-Trader} 的统一架构，该架构将基于语言处理（通过大语言模型）与基于梯度的强化学习(RL)策略优化相结合，在这种架构中，部分微调的大语言模型作为策略网络运行，利用预训练知识并通过参数高效微调适应金融领域。通过由交易奖励驱动的策略梯度优化，我们的框架不仅提高了大语言模型在交易中的表现，还改善了其他金融领域任务的结果。我们提供了大量实验证据来验证这些改进。