摘要
arXiv:2502.07963v1 类型: cross
摘要: 医学研究在将新颖治疗方法转化为临床实践方面面临着广泛记录的挑战。出版激励促使研究人员呈现“积极”的发现,即使实证结果是模棱两可的。因此,作者常常在文章摘要中操控研究结果是广为人知的现象。这种操控可能会影响临床医生对证据的解读,并可能影响患者的治疗决策。在这项研究中,我们询问大型语言模型(LLMs)对试验结果的解读是否也会受到操控的影响。这是因为LLMs正越来越多地被用于浏览和综合医学证据。我们评估了22种LLM,发现它们普遍比人类更容易受到操控的影响。它们还可能将操控传播到其输出内容中:我们发现证据表明,LLMs在生成的白话摘要中不自觉地吸收了操控。然而,我们还发现,LLMs通常能够识别操控,并可以通过某种方式提示它们来减轻操控对LLM输出的影响。