LLM2D

摘要

在强化学习 (RL) 中使用深度神经网络时，模型规模的增加往往会导致性能下降。虽然专家软混合 (SoftMoEs) 近年来在缓解在线 RL 中的这个问题方面表现出了希望，但其有效性背后的原因在很大程度上仍然未知。在这项工作中，我们提供了深入的分析，识别了推动这种性能提升的关键因素。我们发现了令人惊讶的结果，即对编码器输出进行分词，而不是使用多个专家，是 SoftMoEs 效力的关键。事实上，我们证明了即使使用适当规模的单个专家，我们也能保持性能提升，这主要归功于分词。