摘要
arXiv:2302.09327v2 通知类型: 交叉替换
摘要:Transformer 是一种最初为自然语言处理开发的神经网络架构,现已发展成为解决各种问题的基础工具,包括文本、音频、图像处理、强化学习以及其他涉及异构输入数据的任务。其标志在于自注意力机制,该机制允许模型动态地加权输入序列的不同部分,这是早期基于注意力的方法的发展。本文为读者提供了理解Transformer模型最新研究所需的基础知识,并介绍了其核心组件的数学和算法基础。它还探讨了该架构的各种元素、潜在修改以及一些最相关的应用。本文用西班牙语撰写,旨在使西班牙语社区更容易获取这种科学知识。