LLM2D

摘要

arXiv:2502.06666v1 类型: cross 摘要：当前的大语言模型（LLMs）基准通常基于开放式或封闭式问答评估，从而避免了人力要求。封闭式测量评估了响应的事实性，但缺乏表达性。开放式评估了模型产生话语响应的能力，但很难评估其正确性。这两种方法通常独立或联合使用，但它们之间的关系仍然 poorly understood。这项工作集中在医疗保健领域，因为在这里事实性和话语都非常重要。它引入了一个全面的多轴评估套件，用于医疗保健LLM评估，探讨了开放式和封闭式基准和指标之间的关联。发现包括当前方法中的盲点和重叠。作为更新的合理性检查，我们发布了新的医学基准——CareQA——，具有开放式和封闭式变体。最后，我们提出了一个新的开放式评估指标——宽松困惑度——以缓解识别出的限制。