LLM2D

摘要

arXiv:2504.06580v1 类型: cross 摘要：动作识别模型在理解指导视频方面取得了令人瞩目的成果。然而，它们经常依赖于特定数据集的动作序列，而不是真正的视频理解，我们将其定义为顺序偏见。为了解决这一问题，我们提出两种有效视频操作方法：动作遮蔽（Action Masking），即将频繁共现的动作帧进行遮蔽；序列打乱（Sequence Shuffling），即随机化动作段落的顺序。通过全面的实验，我们证明当前模型在遇到非标准动作序列时表现出显著的性能下降，突显了它们对抗顺序偏见的脆弱性。我们的发现强调了重新思考评估策略以及开发能够超越固定动作模式泛化的模型的重要性。