LLM2D
portrait模式短视频的音视频事件定位
Audio-visual Event Localization on Portrait Mode Short Videos
作者: Wuyang Liu, Yi Chai, Yongpeng Yan, Yanzhen Ren
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06884v1

摘要

arXiv:2504.06884v1 交叉公告类型:跨领域 摘要:跨模态事件定位(AVEL)在多模态场景理解中扮演着关键角色。尽管现有的AVEL数据集主要包含以风景为导向的长视频,其音频背景清晰且简单,但由于智能手机的普及,短视频已成为在线视频内容的主要格式。短视频的特点是采用纵向构图和多层次的音频组合(例如,重叠声音效果、旁白和音乐),这对常规方法带来了独特的挑战。有鉴于此,我们介绍了AVE-PM,这是首次专门为纵向构图短视频设计的AVEL数据集,包含25,335个片段,覆盖86个细分类别,并有帧级注释。除了数据集的创建,我们的经验分析显示,在跨模式评估中,最先进的AVEL方法平均性能下降了18.66%。进一步的分析揭示了不同类型视频格式的两个主要挑战:1)纵向构图的空间偏见引入了不同的领域先验,2)嘈杂的音频组合损害了音频模态的可靠性。为了解决这些问题,我们研究了面向纵向构图短视频的AVEL方法的最佳预处理方案及其背景音乐的影响。实验表明,这些方法仍然可以从定制的预处理和专门模型设计中受益,从而提高性能。这项工作提供了基础基准和 actionable 洞察,有助于在以移动为中心的视频内容时代推进AVEL研究。数据集和代码将公开发布。