LLM2D

摘要

arXiv:2504.06884v1 交叉公告类型：跨领域摘要：跨模态事件定位（AVEL）在多模态场景理解中扮演着关键角色。尽管现有的AVEL数据集主要包含以风景为导向的长视频，其音频背景清晰且简单，但由于智能手机的普及，短视频已成为在线视频内容的主要格式。短视频的特点是采用纵向构图和多层次的音频组合（例如，重叠声音效果、旁白和音乐），这对常规方法带来了独特的挑战。有鉴于此，我们介绍了AVE-PM，这是首次专门为纵向构图短视频设计的AVEL数据集，包含25,335个片段，覆盖86个细分类别，并有帧级注释。除了数据集的创建，我们的经验分析显示，在跨模式评估中，最先进的AVEL方法平均性能下降了18.66%。进一步的分析揭示了不同类型视频格式的两个主要挑战：1）纵向构图的空间偏见引入了不同的领域先验，2）嘈杂的音频组合损害了音频模态的可靠性。为了解决这些问题，我们研究了面向纵向构图短视频的AVEL方法的最佳预处理方案及其背景音乐的影响。实验表明，这些方法仍然可以从定制的预处理和专门模型设计中受益，从而提高性能。这项工作提供了基础基准和 actionable 洞察，有助于在以移动为中心的视频内容时代推进AVEL研究。数据集和代码将公开发布。