LLM2D

摘要

经过四十年的研究，我们最佳的无监督学习表征方法与智能动物所达到的准确率之间仍然存在大约20%的分类准确率差距。因此，我们可能在错误的方向上寻找解决方案。本文提出了一个可能的解决方案。我们展示了强化学习能够学习到与动物相同准确率的表征。我们的主要贡献在于以下几点观察：a. 当应用于真实世界环境时，强化学习不需要标签，因此可以被正当地视为无监督学习，b. 相反，当强化学习应用于模拟环境时，它本质上需要标签，因此应通常被视为有监督学习。这些观察的推论是，在模拟环境中进一步寻找具有竞争力的无监督学习范式可能是徒劳的。