摘要
自杀念头的增多凸显了早期检测和干预的重要性。社交媒体平台上的用户经常分享个人经历并寻求帮助,因此可以利用这些平台来识别有风险的个人。然而,海量的每日帖子使得人工审核变得不切实际。本文探讨了使用大型语言模型 (LLM) 自动检测基于文本的社交媒体帖子中的自杀内容。我们提出了一种通过提示LLM生成未标记数据伪标签的新方法,并结合传统的分类微调技术来提高标签精度。为了创建一个强大的自杀检测模型,我们开发了一种集成方法,该方法包括使用Qwen2-72B-Instruct进行提示,并使用微调模型,如Llama3-8B、Llama3.1-8B和Gemma2-9B。我们在IEEE大数据2024大数据杯的一个赛道——社交媒体自杀意念检测挑战赛的数据集上评估了我们的方法。此外,我们进行了全面的分析,以评估不同模型和微调策略对检测性能的影响。实验结果表明,与单个模型相比,集成模型显着提高了检测精度,提高了5个百分点。在公共测试集上,它实现了0.770的加权F1分数,在私有测试集上实现了0.731的加权F1分数,为识别社交媒体中的自杀内容提供了一种有前景的解决方案。我们的分析表明,LLM的选择会影响提示性能,更大的模型能提供更高的精度。我们的代码和检查点已公开发布在https://github.com/khanhvynguyen/Suicide_Detection_LLMs。