LLM2D
AttentionSmithy:一个模块化框架,用于快速的变压器开发和个性化定制
AttentionSmithy: A Modular Framework for Rapid Transformer Development and Customization
作者: Caleb Cranney, Jesse G. Meyer
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.09503v1

摘要

arXiv:2502.09503v1 宣传类型:交叉 摘要:Transformer架构已经改变了AI应用,但仍然很难为缺乏低级实现知识的领域专家定制。我们引入了AttentionSmithy,这是一种模块化软件包,通过将关键组件分解为可重用的构建块——注意力模块、前馈网络、规范化层和位置编码——简化了transformer的创新。用户无需大量编程即可快速原型制作和评估transformer变体。我们的框架支持四种位置编码策略,并与神经架构搜索集成以实现自动设计。我们通过在资源受限条件下复制原始的transformer并结合位置编码来优化翻译性能,验证了AttentionSmithy的有效性。此外,我们展示了它在基因特定建模中的适应性,实现了超过95%的细胞类型分类精度。这些案例研究突显了AttentionSmithy加速跨领域研究的潜力,特别是通过消除框架实现障碍。