摘要
arXiv:2503.18562v1 交叉公告类型: cross
摘要:本研究使用300个胃肠道科考试风格的问题,评估了多种大型语言模型(GPT、Claude、Llama、Phi、Mistral、Gemini、Gemma和Qwen)的自我报告响应 certainty。表现最佳的模型(GPT-o1 预览、GPT-4o 和 Claude-3.5-Sonnet)获得了0.15-0.2的布里尔得分和0.6的AUROC。尽管 newer 模型表现出改进的性能,所有模型都表现出一致的过度自信倾向。不确定性估计对医疗保健中 LLM 的安全使用构成了重大挑战。关键词:大型语言模型;信心征询;人工智能;胃肠道;不确定性量化