摘要
arXiv:2502.06494v1 支持类型: 横向研究
摘要: 尽管大型语言模型(LLMs)在指导性对话如指令遵循和问答任务中表现出色,但在LLM引导的对话中,即LLM主导对话进程并引导对话目标的情况下的潜在可能性仍被广泛忽视。在本研究中,我们首先将LLM引导的对话划分为三个基本组成部分:(i) 目标导航;(ii) 上下文管理;(iii) 同理心参与,提出GuideLLM作为一种安装方案。随后,我们实现了一个面试环境,用于评估LLM引导的对话。具体来说,该环境中涉及多个话题,以进行全面的面试评估,产生约1.4千个对话回合、184千个标记,以及每个聊天机器人的面试过程中提及的超过200个事件。我们从面试质量和自传生成质量的角度将GuideLLM与6种最先进的LLM(如GPT-4o和Llama-3-70b-Instruct)进行比较。对于自动评估,我们从多个自传中提取用户代理,并采用LLM作为评委来评分LLM的行为。我们还通过45名人类参与者与GuideLLM和基线系统进行对话,进行了人工参与实验。我们收集了关于对话和自传质量的人类反馈、偏好和评级。实验结果表明,GuideLLM在自动评估中显著优于基线LLM,在人类评分中也表现出一致的领先性能。