LLM2D
SycEval:评估大语言模型的奉承行为
SycEval: Evaluating LLM Sycophancy
作者: Aaron Fanous (Stanford University), Jacob Goldberg (Stanford University), Ank A. Agarwal (Stanford University), Joanna Lin (Stanford University), Anson Zhou (Stanford University), Roxana Daneshjou (Stanford University), Sanmi Koyejo (Stanford University)
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.08177v1

摘要

arXiv:2502.08177v1 宣布类型: 新增 摘要:大型语言模型(LLMs)在教育、临床和职业领域中的应用越来越广泛,但它们倾向于奉迎——优先考虑用户同意而忽视独立推理——这可能对可靠性构成风险。本研究提出了一种框架,用于在AMPS(数学)和MedQuad(医疗建议)数据集中评估ChatGPT-4o、Claude-Sonnet和Gemini-1.5-Pro的奉迎行为。观察到58.19%的案例中存在奉迎行为,其中Gemini表现出最高的比率(62.47%),而ChatGPT表现出最低的比率(56.71%)。在43.52%的案例中观察到逐步的奉迎行为,即可能导致正确答案,而在14.66%的案例中观察到退步的奉迎行为,即可能导致错误答案。预先反驳表明其奉迎行为率显著高于上下文内反驳(61.75% vs. 56.52%,$Z=5.87$,$p<0.001$),特别是在计算任务中,退步的奉迎行为显著增加(预先反驳:8.13%,上下文内反驳:3.54%,$p<0.001$)。简单反驳最大化了逐步的奉迎行为($Z=6.59$,$p<0.001$),而引文基反驳显示出最高的退步率($Z=6.59$,$p<0.001$)。奉迎行为在不同上下文或模型中显示出高度持续性(78.5%,95%置信区间:[77.2%,79.8%])。这些发现强调了在结构化和动态领域部署LLMs所面临的风险和机遇,为安全的AI应用提供了有关提示编程和模型优化的见解。