LLM2D
自适应集成分层注意力(AILA)
Adaptive Integrated Layered Attention (AILA)
作者: William Claster, Suhas KM, Dhairya Gundechia
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2503.22742v2

摘要

arXiv:2503.22742v2 通知类型: replace-cross 摘要: 我们提出了自适应集成分层注意力(AILA)神经网络架构,该架构结合了密集跳连接和不同的机制,以在不同网络层中实现自适应特征复用。我们在三个具有挑战性的任务上评估了AILA:各类大宗商品和指数(标普500、黄金、美国国债期货、咖啡、小麦)的价格预测,使用CIFAR-10数据集的图像识别,以及基于IMDB电影评论数据集的情感分析。在所有情况下,AILA都与强大的深度学习基线(LSTMs、Transformer和ResNets)相匹配,而且只需极少的训练和推理时间。值得注意的是,我们实现了并测试了该模型的两个版本 - AILA-Architecture 1,其中使用简单的线性层作为层之间的连接机制,以及AILA-Architecture 2,其中实现了注意力机制以有选择地关注之前的层输出。两个架构都在单任务学习设置中应用,每个模型独立训练以适应特定任务。结果表明,AILA的自适应跨层连接通过灵活地在多个网络深度中复用相关特征,提供了稳健的性能增益。因此,AILA方法扩展了现有的架构,提高了长序列建模、优化计算速度的图像识别以及实际中的SOTA分类性能。