摘要
arXiv:2410.09412v2 宣告类型: replace-cross
摘要:人类反馈在人类与大型语言模型(LLMs)之间互动中至关重要。然而,现有研究主要集中在单轮对话中对LLMs的基准测试。即使在旨在进行多轮对话的基准测试中,用户输入往往也是独立的,忽视了在真实使用场景中人类反馈的微妙和复杂性。为了填补这一研究空白,我们介绍了一种名为FB-Bench的精细粒度、多任务基准,旨在评估LLMs在中文真实使用场景中对人类反馈的响应能力。FB-Bench从两种主要的交互场景汲取灵感,包括591个精心策划的样本,涵盖了八种任务类型、五种回应缺陷类型和九种反馈类型。我们广泛评估了多种流行的LLMs,揭示了它们在不同交互场景中的表现存在显著差异。进一步分析表明,任务类型、人类反馈以及先前回应的缺陷也会显著影响LLMs的响应能力。我们的发现既突显了当前模型的优点,也指出了其局限性,为未来的研究提供了宝贵的见解和方向。代码和数据集可在 https://github.com/PKU-Baichuan-MLSystemLab/FB-Bench 获取。