摘要
arXiv:2502.06666v1 类型: cross
摘要:当前的大语言模型(LLMs)基准通常基于开放式或封闭式问答评估,从而避免了人力要求。封闭式测量评估了响应的事实性,但缺乏表达性。开放式评估了模型产生话语响应的能力,但很难评估其正确性。这两种方法通常独立或联合使用,但它们之间的关系仍然 poorly understood。这项工作集中在医疗保健领域,因为在这里事实性和话语都非常重要。它引入了一个全面的多轴评估套件,用于医疗保健LLM评估,探讨了开放式和封闭式基准和指标之间的关联。发现包括当前方法中的盲点和重叠。作为更新的合理性检查,我们发布了新的医学基准——CareQA——,具有开放式和封闭式变体。最后,我们提出了一个新的开放式评估指标——宽松困惑度——以缓解识别出的限制。