LLM2D
历史墨水:探索大型语言模型在检测19世纪西班牙语讽刺方面的应用
Historical Ink: Exploring Large Language Models for Irony Detection in 19th-Century Spanish
作者: Kevin Cohen, Laura Manrique-G\'omez, Rub\'en Manrique
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.22585v1

摘要

arXiv:2503.22585v1 交叉领域类型: cross 摘要:本研究探讨了使用大型语言模型(LLMs)来增强数据集并提高19世纪拉丁美洲报纸中的讽刺检测效果。通过多项分类和二分类任务,我们采用了两种策略来评估BERT和GPT-4o模型在捕捉讽刺微妙之处方面的有效性。首先,我们实施了数据集增强措施,侧重于丰富情感和上下文线索,但这些措施在历史语言分析中显示出有限的影响。第二种策略是半自动注释过程,有效解决了类别不平衡问题,并通过高质量的注释增加了数据集。尽管在讽喻的复杂性面前存在挑战,但本项工作通过对两个关键贡献促进了情感分析的进步:引入了一个经过讽刺检测标注的新历史西班牙语数据集,以及提出了一种半自动注释方法,其中人类专业知识对于细化LLMs结果至关重要,并结合了历史和文化背景作为核心特征。