LLM2D

摘要

压力是日常生活中常见的情绪，但在某些情况下会影响心理健康，因此开发强大的检测模型势在必行。本研究提出了一种针对德拉威语系语言混合文本的压力识别方法。该挑战包含两个数据集，分别针对泰米尔语和泰卢固语。该提案强调了使用未清理文本作为基准的重要性，以便改进未来的分类方法，并结合不同的预处理技术。使用了随机森林算法，包含三种文本表示：TF-IDF、词语的单字元组和字符的 (1+2+3)-字元组组合。该方法在两种语言类别中都取得了良好的性能，在泰米尔语中获得了 0.734 的宏观 F1 分数，在泰卢固语中获得了 0.727 的宏观 F1 分数，超过了使用 FastText 和 Transformer 模型等其他复杂技术所取得的结果。结果表明，未清理数据对于心理状态检测的价值以及对压力混合文本进行分类的挑战，表明通过清理数据、其他预处理技术或更复杂的模型可以提高性能。