摘要
arXiv:2502.14677v1 哈恩类型: 交叉
摘要: 许多敏感领域——如临床领域——由于隐私风险缺乏广泛可用的数据集。大型语言模型(LLMs)不断增强的生成能力使合成数据集成为可行的选择。在本研究中,我们将LLMs适应临床领域,并使用功能强大的基于编码器的NER模型对生成的临床文本进行机器注释,标注个人可识别信息。然后使用这些合成语料库训练合成NER模型。结果表明,使用合成语料库训练NER模型仅会导致轻微的预测性能下降。我们在系统性消融研究中进一步探讨了这一过程的局限性——使用瑞典语和西班牙语数据。我们的分析显示,较小的语料库可以满足将LLMs适应于数据合成的需求。相反,这一过程的有效性几乎完全取决于使用原始数据训练的机器注释NER模型的性能。