LLM2D

摘要

arXiv:2504.07114v1 交叉类型：公告摘要：随着基于LLM的聊天机器人的迅速采用，评估人类和LLM共同所能达到的效果迫在眉睫。然而，现有的标准基准，如MMLU，只是单独评估LLM的能力（即，“AI独立”）。在这里，我们设计并开展了一项用户研究，将MMLU的问题转化为用户-AI对话，通过将问题提供给用户，并让他们与LLM进行对话以回答问题。我们发布了ChatBench，这是一个新的数据集，包含396个问题和两种LLM的AI独立、用户独立和用户-AI数据，包括144,000个答案和7,336个用户-AI对话。我们发现，AI独立的准确性无法预测用户-AI的准确性，在多个学科（数学、物理和道德推理）之间存在显著差异，并且我们分析了用户-AI对话，以提供它们与AI独立基准如何不同的见解。最后，我们展示了在ChatBench的一部分上 fine-tune 用户模拟器可以提高其估计用户-LLM准确性的能力，在保留问题上的相关性提高了超过20个点，为扩展交互评估提供了可能。