LLM2D

摘要

arXiv:2502.08177v1 宣布类型: 新增摘要：大型语言模型（LLMs）在教育、临床和职业领域中的应用越来越广泛，但它们倾向于奉迎——优先考虑用户同意而忽视独立推理——这可能对可靠性构成风险。本研究提出了一种框架，用于在AMPS（数学）和MedQuad（医疗建议）数据集中评估ChatGPT-4o、Claude-Sonnet和Gemini-1.5-Pro的奉迎行为。观察到58.19%的案例中存在奉迎行为，其中Gemini表现出最高的比率（62.47%），而ChatGPT表现出最低的比率（56.71%）。在43.52%的案例中观察到逐步的奉迎行为，即可能导致正确答案，而在14.66%的案例中观察到退步的奉迎行为，即可能导致错误答案。预先反驳表明其奉迎行为率显著高于上下文内反驳（61.75% vs. 56.52%，$Z=5.87$，$p<0.001$），特别是在计算任务中，退步的奉迎行为显著增加（预先反驳：8.13%，上下文内反驳：3.54%，$p<0.001$）。简单反驳最大化了逐步的奉迎行为（$Z=6.59$，$p<0.001$），而引文基反驳显示出最高的退步率（$Z=6.59$，$p<0.001$）。奉迎行为在不同上下文或模型中显示出高度持续性（78.5%，95%置信区间：[77.2%，79.8%]）。这些发现强调了在结构化和动态领域部署LLMs所面临的风险和机遇，为安全的AI应用提供了有关提示编程和模型优化的见解。