LLM2D

摘要

arXiv:2410.09412v2 宣告类型: replace-cross 摘要：人类反馈在人类与大型语言模型（LLMs）之间互动中至关重要。然而，现有研究主要集中在单轮对话中对LLMs的基准测试。即使在旨在进行多轮对话的基准测试中，用户输入往往也是独立的，忽视了在真实使用场景中人类反馈的微妙和复杂性。为了填补这一研究空白，我们介绍了一种名为FB-Bench的精细粒度、多任务基准，旨在评估LLMs在中文真实使用场景中对人类反馈的响应能力。FB-Bench从两种主要的交互场景汲取灵感，包括591个精心策划的样本，涵盖了八种任务类型、五种回应缺陷类型和九种反馈类型。我们广泛评估了多种流行的LLMs，揭示了它们在不同交互场景中的表现存在显著差异。进一步分析表明，任务类型、人类反馈以及先前回应的缺陷也会显著影响LLMs的响应能力。我们的发现既突显了当前模型的优点，也指出了其局限性，为未来的研究提供了宝贵的见解和方向。代码和数据集可在 https://github.com/PKU-Baichuan-MLSystemLab/FB-Bench 获取。