摘要
arXiv:2412.04726v2 宣布类型: replace-cross
摘要: 尽管大型语言模型(LLMs)已知会对非主流方言表现出偏见,但目前还没有用于英语情感分析的标注数据集。为解决这一问题,我们介绍了 BESSTIE,一个针对三种不同英语变体的情感和讽刺分类基准:澳大利亚英语(en-AU)、印度英语(en-IN)和英式英语(en-UK)。利用来自两个领域的网页内容,即 Google 地点评论和 Reddit 讨论,我们使用基于位置和基于话题的筛选方法收集这些语言变体的数据集。该语言变体的母语者手动为这些数据集标注情感和讽刺标签。为了评估数据集是否准确地代表这些变体,我们进行了两个验证步骤:(a)手动标注语言变体和(b)自动语言变体预测。随后,我们对这九个大型语言模型(LLMs)(包括不同编码/解码器和单/多种语言模型的代表)进行了微调,并在两个任务上评估了它们的性能。我们的结果显示,这些模型在内圈变体(即 en-AU 和 en-UK)上的表现更为一致,而 en-IN 的表现显著下降,特别是在讽刺检测方面。我们还报告了跨变体泛化方面的挑战,强调需要像我们的特定于语言变体的数据集。BESSTIE 有望成为一个有用的评价基准,用于未来公平的 LLMs 研究,特别是在语言变体方面。接受后,BESSTIE 数据集、代码和模型将公开提供。