LLM2D

摘要

arXiv:2505.09114v1 宣告类型: 新增摘要: 决策变换器（DT）在现代强化学习中发挥着重要作用，通过利用离线数据集，在多个领域取得了令人印象深刻的结果。然而，DT 要取得最佳性能需要高质量且全面的数据。在实际应用中，由于缺乏训练数据和最优行为的稀缺性，利用离线数据集进行训练变得具有挑战性，因为低质量的数据会限制性能。为了应对这一问题，我们提出了一种新颖的框架——因果推理决策变换器（CRDT），该框架受到了因果推理的启发。CRDT 能够通过生成和利用因果替代经历，增强 DT 在已知数据之外进行推理的能力，从而在未见过的场景中提高决策能力。在包括有限数据和动态改变的 Atari 和 D4RL 基准测试中，CRDT 的性能优于传统的 DT 方法。此外，进行因果推理使 DT 剂量获得了缝合能力，可以结合低质量的轨迹而无需进行架构修改。这些结果突显了因果推理在增强强化学习代理性能和泛化能力方面的潜在作用。