LLM2D

摘要

arXiv:2412.07165v2 更新类型: replace-cross 摘要：现代强化学习算法的表现严重依赖于调整不断增加的超参数数量。通常，超参数的微小变化会导致性能显著变化，不同的环境需要非常不同的超参数设置以实现文献中报告的最先进性能。目前我们缺乏一种可扩展且广泛接受的方法来描述这些复杂的相互作用。本文提出了一种新的经验方法，用于研究、比较和量化给定一组环境的算法性能对超参数调整的敏感性。然后，我们通过评估几种常用张量张量程序优化（PPO）变体的超参数敏感性来展示该方法的实用性。结果显示，一些算法性能改进实际上可能是对超参数调整依赖增加的结果。