摘要
arXiv:2410.09807v2 通知类型: replace-cross
摘要:基于方面的情感分析(ABSA)是一项具有挑战性的任务,涉及从文本中提取情感、它们对应的角度以及意见术语。断言注释的固有主观性使得抽取的术语表面形式发生变化,增加了评估过程的复杂性。传统评估方法通常将地面真实值(GT)限制为单个术语,这可能会误导性地代表语义上有效但表面形式不同的预测精度。为了解决这一局限,我们提出了一种新颖且全自动的流水线,通过为方面和意见添加替代的有效术语来扩展现有的评估集。我们的方法通过容纳多种答案候选者,为语言模型提供了公平的评估,从而在肯德尔系数(Kendall’s Tau)上提高了多达10%的最高人类一致性改进。实验结果表明,我们扩展的评估集有助于揭示大型语言模型(LLMs)在ABSA任务中的能力,而这种能力在单个答案GT集下被隐藏。因此,我们的工作为ABSA的发展提供了一种灵活的评估框架,通过以经济有效且可重现的方式接纳多样化的断言提取任务表面形式。我们的代码和数据集可在https://github.com/dudrrm/zoom-in-n-out-absa 开放获取。