LLM2D

摘要

arXiv:2502.03724v1 交叉公告类型摘要：在黑暗、低光照（欠曝光）或嘈杂视频中进行动作识别是一项具有挑战性的任务，原因是可见度退化，这会妨碍关键的时空细节。本文提出了一种名为MD-BERT的新型多流方法，该方法通过结合互补的预处理技术（如伽马校正和直方图均衡化）以及原始的暗帧来解决这些挑战。我们介绍了动态特征融合（DFF）模块，将现有的注意力融合方法扩展到三流设置，从而捕捉不同亮度和对比度增强下的细粒度和全局上下文信息。然后，通过基于BERT的时间模型处理融合后的时空特征，该模型利用其双向自注意力有效地捕捉跨帧的长范围依赖关系和上下文关系。在ARID V1.0和ARID V1.5黑暗视频数据集上的广泛实验表明，MD-BERT相较于现有方法表现出更优的效果，确立了新的最先进性能。进一步的消融研究还突显了每一流输入的独立贡献，以及所提出的DFF和BERT模块的有效性。该项目的官方网站可在此访问：https://github.com/HrishavBakulBarua/DarkBERT