摘要
胶囊网络在学习具有视角不变性的部分-整体关系方面优于卷积神经网络,这归功于其多维胶囊。人们曾认为增加胶囊网络中胶囊层的数量会提高模型性能。然而,最近的研究发现,由于较深层胶囊中激活值消失的问题,胶囊网络缺乏可扩展性。本文深入研究了深层胶囊网络中激活值消失的问题。为了分析这个问题并了解增加胶囊维度如何促进更深层网络,本文构建并评估了具有不同胶囊数量、胶囊维度和中间层的各种胶囊网络模型。与传统的模型剪枝(减少模型参数数量并加快模型训练)不同,本研究使用剪枝来减轻较深胶囊层中激活值的消失。此外,以不同的剪枝比例对主干网络和胶囊层进行剪枝,以减少非活动胶囊的数量,并实现比未剪枝模型更高的模型精度。