摘要
arXiv:2409.02370v3 公告类型: 替换-交叉 摘要: 大型语言模型 (LLMs) 最近展示了其在语言理解方面的非凡能力。然而,如何全面评估 LLMs 的情感能力仍然是一个挑战。本文研究了 LLMs 在文本模式中检测和响应情感的能力。随着 LLMs 在各种应用中的集成日益增加,理解其对情感语调的敏感性变得至关重要,因为这可以影响用户体验和情感驱动任务的效能。我们进行了一系列实验,评估了几个著名 LLMs 在识别和适当响应积极、消极和中性情感方面的表现。模型输出在各种情感基准上进行分析,并与人类评估进行比较。我们的发现表明,尽管 LLMs 显示出对情感的基本敏感性,但它们在准确性和一致性方面存在显著差异,强调了在训练过程中进一步改进以更好地捕捉微妙情感线索的必要性。例如,在我们的发现中,在某些情况下,模型可能会错误地将强烈的积极情感分类为中性,或未能识别文本中的讽刺或反讽。这种错误分类突显了情感分析的复杂性以及模型需要改进的领域。另一个方面是,不同的 LLMs 可能在相同的数据集上表现不同,这取决于它们的架构和训练数据集。这种差异呼吁对影响性能差异的因素进行更深入的研究,以及如何优化这些因素。