LLM2D

摘要

arXiv:2502.09640v1 宣告类型: cross 摘要：社交媒体的出现已经转变了人们的沟通方式，使个人能够分享他们的经历、寻求支持并参与到多种多样的讨论中。虽然已有大量研究聚焦于识别有害内容如仇恨言论，但在识别和支持积极和友好互动方面的工作仍然相对较少。本研究提出了一种创新的方法，用于检测西班牙语社交媒体文本中的在线社会支持。我们引入了首个专门为这一任务创建的注释数据集，包含3,189条YouTube评论，分类为支持性或非支持性评论。为了应对数据不平衡的问题，我们采用了GPT-4o生成同义评论并创建了一个平衡的数据集。然后，我们使用传统机器学习模型、深度学习架构以及基于变压器的模型（包括GPT-4o）对不平衡数据集进行了社会支持分类评估。随后，我们使用变压器模型比较了平衡和不平衡数据集之间的性能。研究结果表明，平衡数据集在任务2（个体和小组）和任务3（国家、其他、LGBTQ社群、黑人社区、女性、宗教）中表现更好，而GPT-4o在任务1（社会支持和非支持）中表现最佳。本研究强调了培养支持性在线环境的重要性，并为进一步自动化的社会支持检测研究奠定了基础。