LLM2D

摘要

arXiv:2504.03729v1 宣布类型: 新摘要：药品安全性监测实践依赖于大型个例安全报告数据库，以检测和评估药物或疫苗与不良事件之间潜在的新因果关联。重复报告是指涉及同一患者在特定时间发生的同一不良事件的独立且未链接的报告。它们妨碍了统计分析并误导了临床评估。由于此类数据库的庞大，无法进行手动识别重复报告，因此必须采用计算方法。本文在先前最先进的模型 vigiMatch 的基础上进行改进，修改了现有特征并引入了新的特征以针对原始模型已知的缺点。构建了两种支持向量机分类器，一种用于药物，一种用于疫苗，它们将报告对分类为重复或非重复报告。召回率通过使用5个多样化的独立标记测试集进行测量。精确率通过让每个模型对随机选择的报告对流进行分类，直到每个模型分类了100个对作为重复报告再进行测量。这些报告对由一名医学医生进行评估，未指示哪种方法（或方法组合）标记了每个报告对。通过对三个不同国家的重复报告对子集进行评估，测量了该模型对单个国家的性能。新模型在所有标记数据集上的精确率和召回率均高于之前最先进的模型，且药物和疫苗的性能相当。该模型在单个国家的报告对上显示出明显的较少误报，比比较模型表现更好。本方法在此领域中推进了药物和疫苗不良事件报告重复检测的先进水平。