摘要
arXiv:2504.12180v1 交叉类型公告
摘要:当今社会科学的一个基本问题是:我们能信任像ChatGPT这样的高度复杂预测模型到什么程度?这项研究测试了这样一个假设:提示结构的微妙变化不会对大型语言模型GPT-4o mini生成的情感极性分类结果产生显著影响。研究人员使用了包含4位拉丁美洲总统的10万条西班牙语评论的数据集,在10次不同的测试中,每次略微改变提示,将评论分类为正面、负面或中性。实验方法包括探索性分析和验证性分析,以识别分类结果中的显著差异。
结果表明,即使是词法、句法或语气变化,甚至是缺乏结构的变化,都会影响分类结果。在某些情况下,模型会产生不一致的反应,如混淆类别、提供不必要的解释或使用除西班牙语以外的语言。卡方检验的统计分析证实,在大多数比较中,提示之间存在显著差异,但在一个提示结构高度相似的情况下,未发现显著差异。
这些发现挑战了大型语言模型在分类任务中的可靠性和可信度,强调了它们对指令变化的脆弱性。此外,明显缺乏结构化的语法提示会增加幻觉发生的频率。讨论强调了对大型语言模型的信任不仅依赖于技术性能,还依赖于它们使用的社会和制度背景下的关系。