LLM2D

摘要

arXiv:2505.09794v1 交叉类型摘要：研究项目，包括那些专注于癌症的研究，依赖于从临床报告中手动提取信息。这一过程耗时且容易出错，限制了数据驱动方法在医疗保健中的效率。为解决这些挑战，自然语言处理（NLP）提供了从电子健康记录（EHRs）中自动化提取相关信息的替代方案。在本研究中，我们专注于肺癌和乳腺癌，因为它们的发病率高并且对公共卫生有重大影响。这两种癌症的早期发现和有效数据管理对于改善患者预后至关重要。为了提高数据提取的准确性和效率，我们利用了GMV的NLP工具uQuery，该工具在识别临床文本中的相关实体并将其转换为标准化格式（如SNOMED和OMOP）方面表现出色。uQuery不仅能检测和分类实体，还能将它们与上下文信息联系起来，包括否定实体、时间方面和患者相关的细节。在此工作中，我们探索了NLP技术，特别是命名实体识别（NER），以自动识别和提取与这两种癌症相关的EHR中的关键临床信息。我们使用了Health Research Institute Hospital La Fe（IIS La Fe）的数据集，其中包含200份标注的乳腺癌报告和400份肺癌报告，使用Doccano平台手动标记了八个临床实体。为了执行NER，我们微调了基于RoBERTa的生物医学语言模型bsc-bio-ehr-en3，该模型之前在西班牙语上进行了预训练。我们使用Transformers架构进行了微调，从而使这些癌症类型中的临床实体识别变得准确。我们的结果显示出整体表现强劲，尤其是在识别实体如MET和PAT方面尤为突出，尽管对于较不常见的实体如EVOL仍然存在挑战。