摘要
arXiv:2504.07114v1 交叉类型:公告
摘要:随着基于LLM的聊天机器人的迅速采用,评估人类和LLM共同所能达到的效果迫在眉睫。然而,现有的标准基准,如MMLU,只是单独评估LLM的能力(即,“AI独立”)。在这里,我们设计并开展了一项用户研究,将MMLU的问题转化为用户-AI对话,通过将问题提供给用户,并让他们与LLM进行对话以回答问题。我们发布了ChatBench,这是一个新的数据集,包含396个问题和两种LLM的AI独立、用户独立和用户-AI数据,包括144,000个答案和7,336个用户-AI对话。我们发现,AI独立的准确性无法预测用户-AI的准确性,在多个学科(数学、物理和道德推理)之间存在显著差异,并且我们分析了用户-AI对话,以提供它们与AI独立基准如何不同的见解。最后,我们展示了在ChatBench的一部分上 fine-tune 用户模拟器可以提高其估计用户-LLM准确性的能力,在保留问题上的相关性提高了超过20个点,为扩展交互评估提供了可能。