LLM2D

摘要

arXiv:2312.08365v3 宣布类型: replace-cross 摘要：训练深度神经网络以最大化目标指标在过去十年中已成为成功的机器学习的标准方法。如果目标指标是可微的，这些网络可以通过监督学习进行优化。然而，对于许多有趣的问题，这并不是情况。常见的目标，如交集比（IoU）、双语评估 understudy（BLEU）评分或奖励，不能通过监督学习进行优化。一种常见的方法是定义可微的替换损失，这会导致相对于实际目标的次优解。近年来，强化学习（RL）已成为优化深度神经网络以最大化非可微目标的有希望的替代方案。例子包括通过人类反馈对大型语言模型的对齐、代码生成、对象检测或控制问题。这使RL技术对更广泛的机器学习受众变得 relevant。然而，由于方法范围广泛且经常理论性很强，因此这种方法需要大量时间去接近。在这篇介绍中，我们采取了一种不同于经典强化学习教科书的方法。我们不集中在表格问题上，而是将强化学习引入为监督学习的概括，并首先将其应用于非可微目标，之后应用于时序问题。假定读者仅具备监督学习的基本知识，在阅读这篇教程后，读者将能够理解当前最先进的深度强化学习算法，如近端策略优化（PPO）。