摘要
我们提出了一种新的概率注意力框架——多头密度自适应注意力机制(DAAM),它可以用于参数高效微调(PEFT),以及旨在增强跨多种模态(包括语音、文本和视觉)的信息聚合的密度自适应Transformer(DAT)。DAAM将可学习的均值和方差集成到其注意力机制中,并在多头框架中实现,使其能够共同建模任何概率分布,以动态重新校准特征重要性。该方法证明了显著的改进,尤其是在高度非平稳数据的情况下,在模型性能方面超过了最先进的注意力技术,准确率提高了约 +20%(绝对值)。根据经验,DAAM在各种任务中表现出优越的适应性和有效性,包括语音情感识别、图像分类和文本分类,从而证明了其在处理跨多种模态数据的鲁棒性和通用性。此外,我们引入了重要性因子,这是一种新的基于学习的指标,它增强了使用基于DAAM的方法训练的模型的可解释性。