摘要
arXiv:2503.18594v1 交叉公告类型
摘要:我们通过引入最大的公开可用临床语料库 ClinText-SP 及其最先进的临床编码语言模型 RigoBERTa Clinical,为西班牙临床自然语言处理领域做出了新的贡献。我们的语料库严格挑选自多种开放源,包括医学期刊中的临床案例和共享任务中的标注语料库,提供了之前难以获取的丰富多样的数据集。RigoBERTa Clinical 通过在这个全面的数据集上进行领域适应性预训练而开发,其在多个临床 NLP 基准测试中显著优于现有模型。通过公开发布数据集和模型,我们旨在为研究社区提供强有力的资源,从而推动临床 NLP 领域的进一步发展,并最终促进健康应用的改进。