LLM2D

摘要

我们介绍了 Epic-Sounds，一个大型音频标注数据集，它捕捉了以自我为中心的视频音频流中的时间范围和类别标签。我们提出了一种标注流程，其中标注者对可区分的音频片段进行时间标注，并描述可能导致这种声音的动作。我们确定了可以通过音频纯净区分的动作，通过将这些音频的自由形式描述分组到类别中。对于涉及物体碰撞的动作，我们收集了物体材料的人工标注（例如，玻璃物体放在木质表面上），并通过视频验证这些标注，剔除歧义。总体而言，Epic-Sounds 包含 78.4 万个可听事件和动作的分类片段，分布在 44 个类别中，以及 39.2 万个未分类片段。我们在我们的数据集上训练和评估了最先进的音频识别和检测模型，用于音频和视听方法。我们还对以下方面进行了分析：音频事件之间的时序重叠，音频和视觉模态之间的时序和标签相关性，仅从音频输入标注材料的歧义性，仅音频标签的重要性以及当前模型理解声音动作的局限性。项目页面：https://epic-kitchens.github.io/epic-sounds/