LLM2D

摘要

arXiv:2504.00027v2 宣布类型: replace-cross 摘要：阿片类药物过量危机仍然是一个关键的公共卫生危机，特别是在美国，导致了大量的死亡和社会成本。像Reddit这样的社交媒体平台提供了大量的非结构化数据，这些数据可以揭示公众对阿片类药物使用及其相关讨论和经历的见解。本研究利用自然语言处理（NLP），特别是阿片类药物实体识别（ONER-2025），从这些平台中提取可操作的信息。我们的研究做出了四项主要贡献。首先，我们从Reddit创建了一个独特且人工标注的数据集，其中用户通过不同的给药途径分享他们自己报告的阿片类药物使用经验。该数据集包含331,285个标记，并包括八大主要的阿片类药物实体类别。其次，我们详细说明了我们的标注过程和指南，并讨论了标注ONER-2025数据集的挑战。第三，我们分析了阿片类药物讨论中的关键语言挑战，包括俚语、歧义、断句及情感浓厚的语言。第四，我们提出了一个实时监控系统，用于处理来自社交媒体、医疗记录和紧急服务的实时数据，以识别过量服用事件。使用11次实验中的5折交叉验证，我们的系统整合了机器学习、深度学习和基于变换器的语言模型，结合先进的上下文嵌入，以增强理解能力。我们的基于变换器的模型（bert-base-NER和roberta-base）达到了97%的准确率和F1分数，比基线模型高出10.23%（RF=0.88）。