LLM2D

摘要

arXiv:2503.22742v1 宣告类型: cross 摘要: 我们提出了一种称为自适应综合分层注意力(AILA)的神经网络架构，它将密集的跳跃连接与不同机制相结合，以适应性地在网络层间重用特征。我们在三个具有挑战性的任务上评估了AILA：各种商品和指数（标普500、黄金、美国期货、咖啡、小麦）的价格预测，使用CIFAR-10数据集进行图像识别，以及使用IMDB电影评论数据集的情感分析。在所有情况下，AILA在与强大的深度学习基线（LSTMs、Transformer和ResNets）进行比较时表现相当，但在训练和推理时间的大幅度减少的情况下达到这一水平。特别地，我们实现了并测试了该模型的两个版本 - AILA-Architecture 1，它在层间使用简单的线性层作为连接机制，以及AILA-Architecture 2，它实现了一种注意力机制，以选择性地关注先前层的输出。在这两种架构中，每个模型独立地针对特定任务进行了单独训练。结果表明，AILA的自适应跨层连接通过在多个网络深度上灵活地重用相关特征，提供了稳健的增益。因此，AILA方法在现有架构的基础上提供了一个延伸，它可以改进长序列建模、优化计算速度的图像识别以及实际中的SOTA分类性能。