LLM2D

摘要

这篇论文的主要目的是强调当前深度学习模型，特别是视觉模型的一个重要局限性。与人类视觉高效地只选择必要的视觉区域进行进一步处理，从而实现高速和低功耗不同，深度视觉模型会处理整个图像。本文从更广泛的角度探讨了这个问题，并提出了两种解决方案，这些方案可能为下一代更高效的视觉模型铺平道路。第一种方案是选择性地将卷积和池化操作应用于改变的区域，并将变化图发送到后续层。该图指示哪些计算需要重复。第二种方案是仅由语义分割模型处理修改后的区域，并将生成的片段插入到先前输出图的相应区域。代码可在https://github.com/aliborji/spatial_attention 获取。