LLM2D
FB-Bench:一项针对LLM响应人类反馈能力的细粒度多任务基准测试
FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback
作者: Youquan Li, Miao Zheng, Fan Yang, Guosheng Dong, Bin Cui, Weipeng Chen, Zenan Zhou, Wentao Zhang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2410.09412v2

摘要

arXiv:2410.09412v2 宣告类型: replace-cross 摘要:人类反馈在人类与大型语言模型(LLMs)之间互动中至关重要。然而,现有研究主要集中在单轮对话中对LLMs的基准测试。即使在旨在进行多轮对话的基准测试中,用户输入往往也是独立的,忽视了在真实使用场景中人类反馈的微妙和复杂性。为了填补这一研究空白,我们介绍了一种名为FB-Bench的精细粒度、多任务基准,旨在评估LLMs在中文真实使用场景中对人类反馈的响应能力。FB-Bench从两种主要的交互场景汲取灵感,包括591个精心策划的样本,涵盖了八种任务类型、五种回应缺陷类型和九种反馈类型。我们广泛评估了多种流行的LLMs,揭示了它们在不同交互场景中的表现存在显著差异。进一步分析表明,任务类型、人类反馈以及先前回应的缺陷也会显著影响LLMs的响应能力。我们的发现既突显了当前模型的优点,也指出了其局限性,为未来的研究提供了宝贵的见解和方向。代码和数据集可在 https://github.com/PKU-Baichuan-MLSystemLab/FB-Bench 获取。