LLM2D
Home
Arxiv
返回列表
别扁平化,要分词!揭秘 SoftMoE 在深度强化学习中的有效性关键
Don't flatten, tokenize! Unlocking the key to SoftMoE's efficacy in deep RL
作者:
Ghada Sokar, Johan Obando-Ceron, Aaron Courville, Hugo Larochelle, Pablo Samuel Castro
发布日期:
10/4/2024
arXiv ID:
oai:arXiv.org:2410.01930v1
摘要
在强化学习 (RL) 中使用深度神经网络时,模型规模的增加往往会导致性能下降。虽然专家软混合 (SoftMoEs) 近年来在缓解在线 RL 中的这个问题方面表现出了希望,但其有效性背后的原因在很大程度上仍然未知。在这项工作中,我们提供了深入的分析,识别了推动这种性能提升的关键因素。我们发现了令人惊讶的结果,即对编码器输出进行分词,而不是使用多个专家,是 SoftMoEs 效力的关键。事实上,我们证明了即使使用适当规模的单个专家,我们也能保持性能提升,这主要归功于分词。
查看原文
下载 PDF