LLM2D
BiGSCoder: 状态空间模型icode理解
BiGSCoder: State Space Model for Code Understanding
作者: Shweta Verma, Abhinav Anand, Mira Mezini
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.01475v1

摘要

arXiv:2505.01475v1 宣告类型: cross 摘要: 我们提出了一种新颖的编码器-only 双向状态空间模型(SSM),该模型具有门控架构,并使用掩码语言建模在代码数据集上进行了预训练,以理解代码。我们的工作旨在系统地评估 SSM 在编码任务方面的能力,而与传统变压器架构相比;BiGSCoder 就是为此目的建立的。通过在各种不同的预训练配置和代码理解基准测试中进行全面的实验,我们证明了尽管 BiGSCoder 使用了更简单的预训练策略和更少的训练数据,它在各种编码任务上的表现仍然优于基于变压器的模型。我们的结果显示,BiGSCoder 可以作为一种更有效的替代常规变压器模型的选择。此外,我们的研究表明,SSM 在没有位置嵌入的情况下表现更好,并且在微调过程中能够有效扩展到更长的序列。