摘要
arXiv:2502.09503v1 宣传类型:交叉
摘要:Transformer架构已经改变了AI应用,但仍然很难为缺乏低级实现知识的领域专家定制。我们引入了AttentionSmithy,这是一种模块化软件包,通过将关键组件分解为可重用的构建块——注意力模块、前馈网络、规范化层和位置编码——简化了transformer的创新。用户无需大量编程即可快速原型制作和评估transformer变体。我们的框架支持四种位置编码策略,并与神经架构搜索集成以实现自动设计。我们通过在资源受限条件下复制原始的transformer并结合位置编码来优化翻译性能,验证了AttentionSmithy的有效性。此外,我们展示了它在基因特定建模中的适应性,实现了超过95%的细胞类型分类精度。这些案例研究突显了AttentionSmithy加速跨领域研究的潜力,特别是通过消除框架实现障碍。