摘要
arXiv:2505.09794v1 交叉类型
摘要:研究项目,包括那些专注于癌症的研究,依赖于从临床报告中手动提取信息。这一过程耗时且容易出错,限制了数据驱动方法在医疗保健中的效率。为解决这些挑战,自然语言处理(NLP)提供了从电子健康记录(EHRs)中自动化提取相关信息的替代方案。在本研究中,我们专注于肺癌和乳腺癌,因为它们的发病率高并且对公共卫生有重大影响。这两种癌症的早期发现和有效数据管理对于改善患者预后至关重要。为了提高数据提取的准确性和效率,我们利用了GMV的NLP工具uQuery,该工具在识别临床文本中的相关实体并将其转换为标准化格式(如SNOMED和OMOP)方面表现出色。uQuery不仅能检测和分类实体,还能将它们与上下文信息联系起来,包括否定实体、时间方面和患者相关的细节。在此工作中,我们探索了NLP技术,特别是命名实体识别(NER),以自动识别和提取与这两种癌症相关的EHR中的关键临床信息。我们使用了Health Research Institute Hospital La Fe(IIS La Fe)的数据集,其中包含200份标注的乳腺癌报告和400份肺癌报告,使用Doccano平台手动标记了八个临床实体。为了执行NER,我们微调了基于RoBERTa的生物医学语言模型bsc-bio-ehr-en3,该模型之前在西班牙语上进行了预训练。我们使用Transformers架构进行了微调,从而使这些癌症类型中的临床实体识别变得准确。我们的结果显示出整体表现强劲,尤其是在识别实体如MET和PAT方面尤为突出,尽管对于较不常见的实体如EVOL仍然存在挑战。