摘要
arXiv:2504.02872v1 类型: cross
摘要:暗网市场(DNMs)在全球范围内促进了非法商品的交易。收集DNMs的数据对于确保执法机构能够有效打击犯罪至关重要。手动从DNMs中提取数据是一个容易出错且耗时的任务。为了自动化这一过程,我们开发了一个从DNMs中提取数据的框架,并评估了三个最先进的命名实体识别(NER)模型,即ELMo-BiLSTM [Shah et al., 2022]、UniversalNER [Zhou et al., 2024] 和 GLiNER [Zaratiana et al., 2023] 在从DNM产品Listing页面提取复杂实体方面的应用。我们提出了一组新的标注数据集,该数据集用于训练、微调和评估这些模型。我们的研究发现表明,最先进的NER模型在从DNMs中提取信息方面表现良好,达到了91%的精确率、96%的召回率和94%的F1分数。此外,微调提高了模型性能,UniversalNER表现最佳。