摘要
arXiv:2504.03964v1 交叉类型: 新闻
摘要: 我们介绍了Clinical ModernBERT,这是一种基于大规模生物医学文献、临床笔记和医学本体进行预训练的变换器编码器,同时融入了PubMed摘要、MIMIC IV临床数据和带有文本描述的医学编码。在ModernBERT的基础上,我们的模型借鉴了当前最先进的自然语言文本编码器的架构升级,如旋转位置嵌入(RoPE)、Flash Attention和扩展的上下文长度至8192个标记,专门针对生物医学和临床领域进行了适应性改进。Clinical ModernBERT在生成适合长上下文任务的语义丰富表示方面表现出色。我们通过分析其预训练权重和通过对全面的临床NLP基准进行实证评估来验证这一点。