LLM2D

摘要

arXiv:2504.00027v3 公告类型: replace-cross 摘要：阿片类药物过量危机仍然是一个至关重要的公共卫生危机，特别是在美国，导致了重大的死亡率和社会成本。诸如Reddit之类的社交媒体平台提供了大量非结构化数据，可提供有关公众对阿片类药物使用的看法、讨论和经历的洞察。本研究利用自然语言处理（NLP），特别是阿片类药物命名实体识别（ONER-2025），从这些平台中提取可操作的信息。我们的研究做出了四个关键贡献。首先，我们创建了一个独特的、经过人工标注的数据集，该数据集源自Reddit，用户通过不同的给药途径分享了他们自己透露的阿片类药物使用经历。该数据集包含331,285个标记，并包括八个主要的阿片类药物实体类别。其次，我们详细介绍了我们的标注过程和指南，同时讨论了对ONER-2025数据集进行标注的挑战。第三，我们分析了阿片类药物讨论中的关键语言挑战，包括俚语、歧义、片段化的句子和情绪化的语言。第四，我们提出了一个实时监测系统，用于处理来自社交媒体、医疗记录和紧急服务的流式数据，以识别过量服用事件。在11次实验中，使用5折交叉验证，我们的系统将机器学习、深度学习和基于变换器的语言模型与高级上下文嵌入相结合，以增强理解。我们的基于变换器的模型（bert-base-NER和roberta-base）的准确率和F1分数达到了97%，超过了基线方法10.23%（RF=0.88）。