LLM2D

摘要

arXiv:2409.09647v2 宣告类型: 替换-交叉摘要：标记数据有限，自我监督学习是减少标注需求的重要方法之一。虽然它在图像领域得到了广泛探索，但在声学领域却未获得同等程度的关注。然而，减少标注是许多声学应用的关键需求。特别是在生物声学中，全监督学习所需的充分标签很少见。这导致了广泛使用在生物声学任务上预训练于无关数据的声学识别器。我们提出，使用实际任务数据进行训练，结合自我监督预训练和少样本分类，是一个更优的方法，即使只有少量标签可用，也有能力提供高精度。为此，我们引入并评估了一种新的架构，该架构结合了基于CNN的预处理和基于状态空间模型（SSMs）的特征提取。这种方法的动机在于，仅依靠基于CNN的网络难以有效地捕捉到时间信息，这对于分类声学信号至关重要。另一方面，特定的SSM，如S4和Mamba，已被证明在捕捉序列数据中的长期依赖关系方面具有出色的能力。我们使用对比学习在实际任务数据上对这种架构进行预训练，并使用极少量的标注数据进行后续微调。我们评估了这种提出的架构在标准基准以及实际数据上的（$n$-shot，$n$-class）分类性能。我们的评估结果显示，该架构在少样本分类问题上优于现有最先进的架构。