LLM2D
深度视觉模型的一个根本性局限:缺乏空间注意力
Addressing a fundamental limitation in deep vision models: lack of spatial attention
作者: Ali Borji
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2407.01782v4

摘要

这篇论文的主要目的是强调当前深度学习模型,特别是视觉模型的一个重要局限性。与人类视觉高效地只选择必要的视觉区域进行进一步处理,从而实现高速和低功耗不同,深度视觉模型会处理整个图像。本文从更广泛的角度探讨了这个问题,并提出了两种解决方案,这些方案可能为下一代更高效的视觉模型铺平道路。第一种方案是选择性地将卷积和池化操作应用于改变的区域,并将变化图发送到后续层。该图指示哪些计算需要重复。第二种方案是仅由语义分割模型处理修改后的区域,并将生成的片段插入到先前输出图的相应区域。代码可在https://github.com/aliborji/spatial_attention 获取。