摘要
arXiv:2502.09503v2 通知类型: replace-cross
摘要:Transformer架构已经彻底改变了人工智能应用,但它们对于缺乏底层实现专业知识的领域专家来说仍然难以定制。我们引入了AttentionSmithy,这是一种模块化的软件包,通过将关键组件分解为可重用的构建块——注意力模块、前馈网络、规范化层和位置编码,简化了Transformer的创新过程。用户可以快速原型设计和评估Transformer变体而无需大量的编码工作。我们的框架支持四种位置编码策略,并且集成了神经架构搜索,以便自动设计。通过资源限制下的重复原始Transformer和通过结合位置编码优化翻译性能,我们验证了AttentionSmithy的有效性。此外,我们展示了其在基因特定建模方面的适应能力,实现了超过95%的细胞类型分类准确性。这些案例研究突显了AttentionSmithy通过消除框架实现障碍加速跨学科研究的潜力。