摘要
我们介绍了 Epic-Sounds,一个大型音频标注数据集,它捕捉了以自我为中心的视频音频流中的时间范围和类别标签。我们提出了一种标注流程,其中标注者对可区分的音频片段进行时间标注,并描述可能导致这种声音的动作。我们确定了可以通过音频纯净区分的动作,通过将这些音频的自由形式描述分组到类别中。对于涉及物体碰撞的动作,我们收集了物体材料的人工标注(例如,玻璃物体放在木质表面上),并通过视频验证这些标注,剔除歧义。总体而言,Epic-Sounds 包含 78.4 万个可听事件和动作的分类片段,分布在 44 个类别中,以及 39.2 万个未分类片段。我们在我们的数据集上训练和评估了最先进的音频识别和检测模型,用于音频和视听方法。我们还对以下方面进行了分析:音频事件之间的时序重叠,音频和视觉模态之间的时序和标签相关性,仅从音频输入标注材料的歧义性,仅音频标签的重要性以及当前模型理解声音动作的局限性。项目页面:https://epic-kitchens.github.io/epic-sounds/