LLM2D

摘要

arXiv:2504.12180v1 交叉类型公告摘要：当今社会科学的一个基本问题是：我们能信任像ChatGPT这样的高度复杂预测模型到什么程度？这项研究测试了这样一个假设：提示结构的微妙变化不会对大型语言模型GPT-4o mini生成的情感极性分类结果产生显著影响。研究人员使用了包含4位拉丁美洲总统的10万条西班牙语评论的数据集，在10次不同的测试中，每次略微改变提示，将评论分类为正面、负面或中性。实验方法包括探索性分析和验证性分析，以识别分类结果中的显著差异。结果表明，即使是词法、句法或语气变化，甚至是缺乏结构的变化，都会影响分类结果。在某些情况下，模型会产生不一致的反应，如混淆类别、提供不必要的解释或使用除西班牙语以外的语言。卡方检验的统计分析证实，在大多数比较中，提示之间存在显著差异，但在一个提示结构高度相似的情况下，未发现显著差异。这些发现挑战了大型语言模型在分类任务中的可靠性和可信度，强调了它们对指令变化的脆弱性。此外，明显缺乏结构化的语法提示会增加幻觉发生的频率。讨论强调了对大型语言模型的信任不仅依赖于技术性能，还依赖于它们使用的社会和制度背景下的关系。