LLM2D
大型语言模型在胃肠病学领域的自我报告信心分析:商业、开源和量化模型的分析
Self-Reported Confidence of Large Language Models in Gastroenterology: Analysis of Commercial, Open-Source, and Quantized Models
作者: Nariman Naderi, Seyed Amir Ahmad Safavi-Naini, Thomas Savage, Zahra Atf, Peter Lewis, Girish Nadkarni, Ali Soroush
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18562v1

摘要

arXiv:2503.18562v1 交叉公告类型: cross 摘要:本研究使用300个胃肠道科考试风格的问题,评估了多种大型语言模型(GPT、Claude、Llama、Phi、Mistral、Gemini、Gemma和Qwen)的自我报告响应 certainty。表现最佳的模型(GPT-o1 预览、GPT-4o 和 Claude-3.5-Sonnet)获得了0.15-0.2的布里尔得分和0.6的AUROC。尽管 newer 模型表现出改进的性能,所有模型都表现出一致的过度自信倾向。不确定性估计对医疗保健中 LLM 的安全使用构成了重大挑战。关键词:大型语言模型;信心征询;人工智能;胃肠道;不确定性量化