摘要
arXiv:2501.17581v2 宣告类型:替换交叉
摘要:对抗网络骚扰言论的回击式言论已经成为了对抗在线仇恨言论的一种流行且有效的策略,促进了使用语言模型自动化生成回击式言论的研究兴趣。然而,该领域仍然缺乏标准化的评估协议和可靠的自动化评估指标,这些指标能够与人类判断相契合。目前的自动化评估方法主要基于相似度指标,无法有效地捕捉回击式言论质量的复杂且独立的属性,如上下文相关性、攻击性或论辩连贯性。这导致了对劳动密集型的人类评估的依赖,以评估自动化回击式言论生成方法。为了解决这些问题,我们引入了CSEval,这是一种用于在四个方面评估回击式言论质量的新数据集和框架:上下文相关性、攻击性、论辩连贯性和适宜性。此外,我们还提出了Auto-Calibrated COT for Counterspeech Evaluation(Auto-CSEval),这是一种基于提示的方法,并结合自校准的链式思维(CoT),使用大型语言模型为回击式言论打分。我们的实验表明,Auto-CSEval在与人类判断的相关性上优于传统的指标如ROUGE、METEOR和BertScore,表明了在自动化回击式言论评估方面取得了显著的改进。