LLM2D

摘要

arXiv:2503.22746v1 Announce Type: cross 摘要：大型语言模型（LLMs）在医疗保健领域中的应用越来越广泛，但它们的可靠性受到用户驱动因素的影响，如问题表述和临床信息的完整性。在这项研究中，我们探讨了误导性框架、信息来源权威性、模型个性以及关键临床细节的省略如何影响LLM输出的诊断准确性和可靠性。我们进行了两项实验：一项是在不同程度上引入具有不同坚定性的误导性外部意见（扰动测试），另一项是移除特定类别的患者信息（消融测试）。使用公共数据集（MedQA和Medbullets），我们评估了 proprietary 模型（GPT-4o、Claude 3.5 Sonnet、Claude 3.5 Haiku、Gemini 1.5 Pro、Gemini 1.5 Flash）和开源模型（LLaMA 3 8B、LLaMA 3 Med42 8B、DeepSeek R1 8B）。所有模型都对用户驱动的误导性信息敏感，尤其是对具有明确和权威语言的模型影响更大。坚定的语气对准确性的负面影响最大。在消融测试中，省略体检发现和实验室结果导致了最显著的性能下降。尽管 proprietary 模型基线准确性较高，但在误导性信息下的表现急剧下降。这些结果强调了良好结构的提示和完整临床背景的重要性。用户应避免权威性地表述误导性信息，并提供完整的临床细节，尤其是在复杂病例中。