LLM2D

摘要

在过去十年中，训练深度神经网络以最大化目标函数已成为机器学习成功的标准方法。如果目标函数可微分，这些网络可以通过监督学习进行优化。然而，对于许多有趣的问题，情况并非如此。常见的目标函数，如交并比 (IoU)、双语评估研究 (BLEU) 分数或奖励，无法通过监督学习进行优化。一个常见的解决方法是定义可微分的代理损失函数，但这会导致相对于实际目标函数的次优解。近年来，强化学习 (RL) 已成为优化深度神经网络以最大化不可微分目标函数的有希望的替代方法。例如，通过人工反馈对齐大型语言模型、代码生成、目标检测或控制问题。这使得 RL 技术与更广泛的机器学习受众相关。然而，由于方法范围广以及通常非常理论化的呈现方式，该主题需要大量时间才能掌握。在本介绍中，我们采用了与传统强化学习教科书不同的方法。我们不是关注表格问题，而是将强化学习介绍为监督学习的推广，我们首先将其应用于不可微分目标函数，然后应用于时间问题。假设读者仅具备监督学习的基础知识，在阅读本教程后，他们将能够理解最先进的深度 RL 算法，如近端策略优化 (PPO)。