摘要
尽管经过了四十年的研究,我们最好的无监督学习表示方法与智能动物所达成的精度率之间仍存在约 20% 的分类精度差距。因此,我们可能在错误的方向上寻找答案。本文提出了一种可能的解决方案。我们证明了强化学习可以学习到与动物精度相同的表示。我们主要的贡献在于以下观察结果:a. 当应用于真实世界环境时,强化学习不需要标签,因此可以合法地被视为无监督学习;b. 相反,当强化学习应用于模拟环境时,它本质上需要标签,因此通常应被视为监督学习。这些观察结果的推论是,在模拟环境中进一步寻找可训练的无监督学习竞争范式可能是徒劳的。