LLM2D

摘要

arXiv:2503.22585v1 交叉领域类型: cross 摘要：本研究探讨了使用大型语言模型（LLMs）来增强数据集并提高19世纪拉丁美洲报纸中的讽刺检测效果。通过多项分类和二分类任务，我们采用了两种策略来评估BERT和GPT-4o模型在捕捉讽刺微妙之处方面的有效性。首先，我们实施了数据集增强措施，侧重于丰富情感和上下文线索，但这些措施在历史语言分析中显示出有限的影响。第二种策略是半自动注释过程，有效解决了类别不平衡问题，并通过高质量的注释增加了数据集。尽管在讽喻的复杂性面前存在挑战，但本项工作通过对两个关键贡献促进了情感分析的进步：引入了一个经过讽刺检测标注的新历史西班牙语数据集，以及提出了一种半自动注释方法，其中人类专业知识对于细化LLMs结果至关重要，并结合了历史和文化背景作为核心特征。