LLM2D
压力测试泛化能力:微小修改如何削弱大型语言模型性能
Stress Testing Generalization: How Minor Modifications Undermine Large Language Model Performance
作者: Guangxiang Zhao, Saier Hu, Xiaoqi Jian, Jinzhu Wu, Yuhan Wu, Change Jia, Lin Sun, Xiangzheng Zhang
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12459v1

摘要

arXiv:2502.12459v1 宣告类型: cross 摘要:本文探讨了大型语言模型(LLMs)在推广到新颖输入时的脆弱性,特别是集中在标准基准上的微小扰动(例如问题格式或干扰项长度的轻微变化)。尽管大型语言模型在基准测试中的得分很高,但它们在面对这些微小但保持内容不变的修改时会表现出显著的准确率下降和意想不到的偏见(例如倾向于更长的干扰项)。例如,Qwen 2.5 1.5B的MMLU分数从60上升到89,然后当选项长度改变而问题本身未变时,再次下降到36。即使是GPT-4,在问题类型发生变化的情况下也经历了25点的准确率损失,所有三个修改类别中的准确率分别下降了6点。这些分析表明,LLMs 依赖于表层线索,而不是形成能够在不同格式、词汇变体和无关内容转移下进行泛化的稳健且抽象的表示。本文与ACL 2025的主题轨道一致,该轨道专注于自然语言处理模型的推广性,提出了“推广性压力测试”来评估在可控扰动下的性能变化。研究呼吁重新评估基准测试,并开发更可靠的评价方法来更准确地捕捉LLMs的推广能力。