LLM2D

摘要

我们提出了一种多通道到多通道目标声音提取（M2M-TSE）框架，用于从多通道声源混合中分离出多通道目标信号。目标声音提取（TSE）通过用户提供的线索隔离特定的目标信号，通常专注于使用类别标签或时间激活图进行单通道提取。然而，为了保留和利用多通道音频信号中的空间信息，提取目标声源的多通道信号至关重要。此外，提取线索还可以包括空间或时间线索，如到达方向（DoA）或声源激活的时间戳。为了应对这些挑战，我们提出了一种基于时空线索提取多通道声音信号的M2M框架。我们证明，基于Transformer的架构能够成功完成不同房间环境中从多种类别音频信号合成的多通道信号的M2M-TSE任务。此外，我们展示了多通道提取任务在深度神经网络（DNN）中引入了足够的归纳偏置，使其能够直接处理DoA线索，而无需使用手工制作的空间特征。