LLM2D

摘要

arXiv:2504.20444v1 Announce Type: cross 摘要：我们研究了三种商用大语言模型（LLM）：ChatGPT、Gemini和Claude的首因效应。我们通过重新利用Asch（1946年）使用人类受试者进行的经典实验来进行这项研究。这个实验非常简单，当给出两个描述完全相同的候选人时，如果一个描述是以积极形容词开头，随后是消极形容词，而另一个描述是以消极形容词开头，随后是积极形容词，那么哪一个更受偏好。我们在两个实验中测试了这一效应。在第一个实验中，我们将两个候选人同时放在同一个提示中提供给LLM们；在第二个实验中，我们将两个候选人分别提供给LLM们。我们用200对候选人进行了所有模型的测试。我们发现，在第一个实验中，ChatGPT更偏好以积极形容词开头的候选人，而Gemini两者偏好相当。Claude则通常不作选择。在第二个实验中，ChatGPT和Claude最有可能对两个候选人进行同等的排名。在他们没有给出同等评分的情况下，两者都更倾向于那些以消极形容词开头的候选人。而Gemini更有可能偏好以消极形容词开头的候选人。