LLM2D

摘要

arXiv:2503.22742v2 通知类型: replace-cross 摘要: 我们提出了自适应集成分层注意力(AILA)神经网络架构，该架构结合了密集跳连接和不同的机制，以在不同网络层中实现自适应特征复用。我们在三个具有挑战性的任务上评估了AILA：各类大宗商品和指数（标普500、黄金、美国国债期货、咖啡、小麦）的价格预测，使用CIFAR-10数据集的图像识别，以及基于IMDB电影评论数据集的情感分析。在所有情况下，AILA都与强大的深度学习基线（LSTMs、Transformer和ResNets）相匹配，而且只需极少的训练和推理时间。值得注意的是，我们实现了并测试了该模型的两个版本 - AILA-Architecture 1，其中使用简单的线性层作为层之间的连接机制，以及AILA-Architecture 2，其中实现了注意力机制以有选择地关注之前的层输出。两个架构都在单任务学习设置中应用，每个模型独立训练以适应特定任务。结果表明，AILA的自适应跨层连接通过灵活地在多个网络深度中复用相关特征，提供了稳健的性能增益。因此，AILA方法扩展了现有的架构，提高了长序列建模、优化计算速度的图像识别以及实际中的SOTA分类性能。