LLM2D
ClinText-SP 和 RigoBERTa 临床:新的西班牙临床 NLP 开放资源集
ClinText-SP and RigoBERTa Clinical: a new set of open resources for Spanish Clinical NLP
作者: Guillem Garc\'ia Subies, \'Alvaro Barbero Jim\'enez, Paloma Mart\'inez Fern\'andez
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18594v1

摘要

arXiv:2503.18594v1 交叉公告类型 摘要:我们通过引入最大的公开可用临床语料库 ClinText-SP 及其最先进的临床编码语言模型 RigoBERTa Clinical,为西班牙临床自然语言处理领域做出了新的贡献。我们的语料库严格挑选自多种开放源,包括医学期刊中的临床案例和共享任务中的标注语料库,提供了之前难以获取的丰富多样的数据集。RigoBERTa Clinical 通过在这个全面的数据集上进行领域适应性预训练而开发,其在多个临床 NLP 基准测试中显著优于现有模型。通过公开发布数据集和模型,我们旨在为研究社区提供强有力的资源,从而推动临床 NLP 领域的进一步发展,并最终促进健康应用的改进。