LLM2D

摘要

大型语言模型（LLMs）在语言理解方面最近展示了其非凡的能力。然而，如何全面评估LLMs的情感能力仍然是一个挑战。本文研究了LLMs在文本模式中检测和反应情感的能力。随着LLMs融入各种应用的增加，理解它们对情感语调的敏感性变得至关重要，因为这可以影响用户体验和情感驱动任务的效能。我们进行了一系列实验，评估了几种著名LLMs在识别和适当回应积极、消极和中性情感方面的表现。模型输出在各种情感基准上进行分析，并与人类评估进行比较。我们的发现表明，尽管LLMs显示出对情感的基本敏感性，但它们在准确性和一致性方面存在显著差异，强调了在训练过程中进一步增强以更好地捕捉微妙情感线索的必要性。例如，在我们的发现中，在某些情况下，模型可能会错误地将强烈的积极情感分类为中性，或未能识别文本中的讽刺或反讽。这种错误分类突显了情感分析的复杂性以及模型需要改进的领域。另一个方面是，不同的LLMs可能在同一组数据上表现不同，这取决于它们的架构和训练数据集。这种差异呼吁对影响性能差异的因素进行更深入的研究，以及如何优化这些因素。