LLM2D

摘要

arXiv:2503.23641v1 声明类型：交叉摘要：本文探讨了Polyak-Lojasiewicz不等式（PLI）的泛化及其对优化问题中梯度流收敛行为的影响。受到文献中仅对连续时间线性二次调节器（CT-LQR）策略优化问题描述较弱版本的PLI的动机，本文表明，在较弱条件下，梯度流可以全球收敛到成本函数的临界点集并达到最优值，但成本函数满足哪种“类型”的不等式会导致梯度流解的“轮廓”发生显著变化。经过一般的理论分析后，我们将重点放在将CT-LQR策略优化问题适应提出的框架上，表明实际上它不可能以最强的形式满足PLI。随后，我们简要讨论了连续时间和离散时间LQR策略优化之间的差异，并在通过近端梯度流求解的情况下，给出了扩展这一框架到具有L1正则化项的优化问题的直觉。