LLM2D

摘要

arXiv:2504.00027v1 交叉公告类型：cross 摘要：药物过量危机仍然是美国公共卫生的重大危机，导致了显著的死亡和社会成本。社交媒体平台如Reddit提供了大量未结构化数据，揭示了公众对阿片类药物使用的态度、讨论和体验。本研究利用自然语言处理（NLP），特别是Opioid Named Entity Recognition（ONER-2025），从这些平台中提取可操作的信息。我们的研究做出了四项关键贡献。首先，我们创建了一个独特的人工标注数据集，该数据集源自Reddit，用户在此分享了通过不同给药途径的自我报告的阿片类药物使用经验。该数据集包含331,285个词汇单元，并包括八个主要的阿片类实体类别。其次，我们详细描述了我们的标注过程和准则，并讨论了对ONER-2025数据集进行标记的挑战。第三，我们分析了阿片类药物讨论中的关键语言挑战，包括俚语、歧义、片段化的句子和情感化的语言。第四，我们提出了一种实时监控系统，该系统处理来自社交媒体、医疗记录和应急服务的流式数据，以识别过量用药事件。通过在11次实验中使用5折交叉验证，我们的系统将机器学习、深度学习和基于变换器的语言模型与先进的上下文嵌入相结合，以提高理解能力。我们的基于变换器的模型（bert-base-NER和roberta-base）达到了97%的准确率和F1分数，比基线高出10.23%（RF=0.88）。