LLM2D
基于文本时间表征的精神疾病分类
Mental Disorder Classification via Temporal Representation of Text
作者: Raja Kumar, Kishan Maharaj, Ashita Saxena, Pushpak Bhattacharyya
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2406.15470v2

摘要

心理疾病是一个全球性的挑战,合格的心理健康专业人员的短缺加剧了这一问题。由于顺序文本数据的复杂性和语言模型有限的上下文长度,当前的 LLMs 从社交媒体帖子中预测心理疾病具有挑战性。现有的基于语言模型的方法将单个数据实例拆分为多个块,以弥补有限的上下文大小。然后将预测模型分别应用于每个块,并选择投票最多的输出作为最终预测。这会导致帖子间依赖关系和重要时间变化信息的丢失,从而导致性能下降。我们提出了一种新的框架,该框架首先将按时间顺序排列的社交媒体帖子的长序列压缩成一系列数字。然后,我们使用这种时间变化的表示来进行心理疾病分类。我们通过在三种不同的精神状况(抑郁症、自残和厌食症)中优于当前的 SOTA 来证明我们框架的泛化能力,F1 分数绝对提高了 5%。我们研究了当前数据实例落在语言模型上下文长度范围内的状况,并展示了突出文本数据时间属性重要性的实证结果。此外,我们利用所提出的框架进行跨领域研究,探索跨疾病的共性以及跨领域数据使用的可能性。