LLM2D
陷入词语的网罗:大语言模型会在医学文献的宣传中上当吗?
Caught in the Web of Words: Do LLMs Fall for Spin in Medical Literature?
作者: Hye Sun Yun, Karen Y. C. Zhang, Ramez Kouzy, Iain J. Marshall, Junyi Jessy Li, Byron C. Wallace
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2502.07963v2

摘要

arXiv:2502.07963v2 通知类型: 替换-交叉 摘要:医学研究在将新颖治疗方法转化为临床实践方面面临着广泛记录的挑战。出版激励促使研究人员呈现“积极”的研究成果,即使实证结果是含糊不清的。因此,众所周知,作者经常扭曲研究结果,尤其是在文章摘要中。这种扭曲可以影响临床医生对证据的解释,并可能影响患者的治疗决策。在本研究中,我们询问大型语言模型(LLMs)提供的试验结果的解释是否同样受到这种扭曲的影响。这很重要,因为LLMs正在越来越多地被用于浏览和综合已发表的医学证据。我们评估了22种LLMs,并发现它们在不同程度上比人类更容易受到这种扭曲的影响。此外,它们可能还会在其输出中传播这种扭曲:我们发现证据表明,LLMs在其生成的普通语言摘要中隐式地包含了这种扭曲。然而,我们还发现,LLMs普遍有能力识别这种扭曲,并可以通过某种方式提示以减轻其对LLMs输出的影响。