LLM2D
自适应集成分层注意力(AILA)
Adaptive Integrated Layered Attention (AILA)
作者: William Claster, Suhas KM, Dhairya Gundechia
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.22742v1

摘要

arXiv:2503.22742v1 宣告类型: cross 摘要: 我们提出了一种称为自适应综合分层注意力(AILA)的神经网络架构,它将密集的跳跃连接与不同机制相结合,以适应性地在网络层间重用特征。我们在三个具有挑战性的任务上评估了AILA:各种商品和指数(标普500、黄金、美国期货、咖啡、小麦)的价格预测,使用CIFAR-10数据集进行图像识别,以及使用IMDB电影评论数据集的情感分析。在所有情况下,AILA在与强大的深度学习基线(LSTMs、Transformer和ResNets)进行比较时表现相当,但在训练和推理时间的大幅度减少的情况下达到这一水平。特别地,我们实现了并测试了该模型的两个版本 - AILA-Architecture 1,它在层间使用简单的线性层作为连接机制,以及AILA-Architecture 2,它实现了一种注意力机制,以选择性地关注先前层的输出。在这两种架构中,每个模型独立地针对特定任务进行了单独训练。结果表明,AILA的自适应跨层连接通过在多个网络深度上灵活地重用相关特征,提供了稳健的增益。因此,AILA方法在现有架构的基础上提供了一个延伸,它可以改进长序列建模、优化计算速度的图像识别以及实际中的SOTA分类性能。