摘要
arXiv:2503.22746v1 Announce Type: cross
摘要:大型语言模型(LLMs)在医疗保健领域中的应用越来越广泛,但它们的可靠性受到用户驱动因素的影响,如问题表述和临床信息的完整性。在这项研究中,我们探讨了误导性框架、信息来源权威性、模型个性以及关键临床细节的省略如何影响LLM输出的诊断准确性和可靠性。我们进行了两项实验:一项是在不同程度上引入具有不同坚定性的误导性外部意见(扰动测试),另一项是移除特定类别的患者信息(消融测试)。使用公共数据集(MedQA和Medbullets),我们评估了 proprietary 模型(GPT-4o、Claude 3.5 Sonnet、Claude 3.5 Haiku、Gemini 1.5 Pro、Gemini 1.5 Flash)和开源模型(LLaMA 3 8B、LLaMA 3 Med42 8B、DeepSeek R1 8B)。所有模型都对用户驱动的误导性信息敏感,尤其是对具有明确和权威语言的模型影响更大。坚定的语气对准确性的负面影响最大。在消融测试中,省略体检发现和实验室结果导致了最显著的性能下降。尽管 proprietary 模型基线准确性较高,但在误导性信息下的表现急剧下降。这些结果强调了良好结构的提示和完整临床背景的重要性。用户应避免权威性地表述误导性信息,并提供完整的临床细节,尤其是在复杂病例中。