LLM2D
刮擦阴影:深学习在暗网 intelligence 的突破
Scraping the Shadows: Deep Learning Breakthroughs in Dark Web Intelligence
作者: Ingmar Bakermans, Daniel De Pascale, Gon\c{c}alo Marcelino, Giuseppe Cascavilla, Zeno Geradts
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2504.02872v1

摘要

arXiv:2504.02872v1 类型: cross 摘要:暗网市场(DNMs)在全球范围内促进了非法商品的交易。收集DNMs的数据对于确保执法机构能够有效打击犯罪至关重要。手动从DNMs中提取数据是一个容易出错且耗时的任务。为了自动化这一过程,我们开发了一个从DNMs中提取数据的框架,并评估了三个最先进的命名实体识别(NER)模型,即ELMo-BiLSTM [Shah et al., 2022]、UniversalNER [Zhou et al., 2024] 和 GLiNER [Zaratiana et al., 2023] 在从DNM产品Listing页面提取复杂实体方面的应用。我们提出了一组新的标注数据集,该数据集用于训练、微调和评估这些模型。我们的研究发现表明,最先进的NER模型在从DNMs中提取信息方面表现良好,达到了91%的精确率、96%的召回率和94%的F1分数。此外,微调提高了模型性能,UniversalNER表现最佳。