LLM2D

摘要

arXiv:2504.21211v1 交叉类型摘要：野生动物走私仍然是一个关键的全球问题，对生物多样性、生态稳定性和公共卫生造成了重大影响。尽管各国都在努力打击这一非法贸易，但电子商务平台的兴起使得销售野生动物产品变得更加容易，给受威胁和濒危物种的野生种群带来了新的压力。此外，使用这些平台也为犯罪分子提供了一个新机会：他们在线销售野生动物产品时留下的数字痕迹可以为走私活动提供见解，以及揭示如何遏制这种活动。挑战在于找到这些线索。在线市场每天发布大量的产品广告，识别与野生动物相关的广告就像在针堆里找针。学习分类器可以自动识别广告，但创建它们需要成本高昂且耗时的数据标注，这阻碍了支持多样广告和研究问题的支持。本文解决了野生动物走私分析数据科学管道中的一个关键挑战：为分类器生成高质量的标注数据，以便选择相关数据。虽大语言模型（LLMs）可以直接标注广告，但大规模进行这项工作成本极高。我们提出了一种经济有效的策略，利用LLMs生成一小部分数据的伪标签，并利用这些标签创建专门的分类模型。我们的新方法自动收集多样且代表性的样本进行标注，同时将标注成本降到最低。我们的实证评估表明，我们的分类器在F1分数上最高可达95%，在较低的成本下优于LLMs。我们展示了实际的应用案例，证明了我们方法在使能够分析不同方面野生动物走私的有效性。