LLM2D

摘要

arXiv:2412.07165v2 宣告类型: replace-cross 摘要：现代强化学习算法的表现严重依赖于调整不断增加的数量的超参数。通常，超参数的小变化会导致性能发生剧烈变化，不同的环境需要非常不同的超参数设置才能实现文献中报告的顶级性能。目前尚缺乏一种可扩展的且广泛接受的方法来表征这些复杂的交互作用。本项工作提出了一种新的经验方法，用于研究、比较和量化给定环境集中的算法性能对超参数调整的敏感性。然后，我们通过评估几种常用PPO归一化变体的超参数敏感性，展示了该方法的实用性。结果表明，某些算法性能的改进实际上可能是对超参数调整依赖增加的结果。