LLM2D
TORE:用于高效主动视觉探索的视觉Transformer令牌循环利用
TORE: Token Recycling in Vision Transformers for Efficient Active Visual Exploration
作者: Jan Olszewski, Dawid Rymarczyk, Piotr W\'ojcik, Mateusz Pach, Bartosz Zieli\'nski
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2311.15335v2

摘要

主动视觉探索 (AVE) 通过顺序选择信息量最大的观测结果来优化现实场景中机器人资源的利用。然而,现代方法由于需要通过自动编码器变换器多次处理相同的观测结果,因此需要较高的计算成本。为了解决这个问题,我们提出了一种名为令牌循环 (TORE) 的新型 AVE 方法。它将编码器分为提取器和聚合器组件。提取器单独处理每个观测结果,从而能够重用传递给聚合器的令牌。此外,为了进一步减少计算量,我们将解码器减少到只有一个块。通过大量的实验,我们证明了 TORE 的性能优于最先进的方法,同时将计算开销降低了高达 90%。