LLM2D

摘要

arXiv:2503.18562v1 交叉公告类型: cross 摘要：本研究使用300个胃肠道科考试风格的问题，评估了多种大型语言模型（GPT、Claude、Llama、Phi、Mistral、Gemini、Gemma和Qwen）的自我报告响应 certainty。表现最佳的模型（GPT-o1 预览、GPT-4o 和 Claude-3.5-Sonnet）获得了0.15-0.2的布里尔得分和0.6的AUROC。尽管 newer 模型表现出改进的性能，所有模型都表现出一致的过度自信倾向。不确定性估计对医疗保健中 LLM 的安全使用构成了重大挑战。关键词：大型语言模型；信心征询；人工智能；胃肠道；不确定性量化