LLM2D

摘要

随着深度学习的快速发展，计算机视觉任务取得了显著进步，使得双流神经网络成为基于视频的动作识别的热门研究方向。传统的利用RGB和光流的模型虽然取得了较好的性能，但却存在高计算成本的问题。为了解决这个问题，我们提出了一种表示流算法来替代以自我为中心的动作识别模型中的光流分支，从而实现端到端训练，同时降低计算成本和预测时间。我们的模型专为以自我为中心的动作识别而设计，利用类激活图 (CAM) 来提高准确率，并使用带有空间注意力的ConvLSTM进行时空编码。在GTEA61、EGTEA GAZE+和HMDB数据集上的评估结果表明，我们的模型在GTEA61数据集上的准确率与原始模型相当，在EGTEA GAZE+和HMDB数据集上分别提高了0.65%和0.84%。预测运行时间也显著缩短，分别为0.1881s、0.1503s和0.1459s，而原始模型的运行时间分别为101.6795s、25.3799s和203.9958s。我们还进行了消融研究，以研究不同参数对模型性能的影响。