LLM2D

摘要

arXiv:2502.06494v1 支持类型: 横向研究摘要: 尽管大型语言模型（LLMs）在指导性对话如指令遵循和问答任务中表现出色，但在LLM引导的对话中，即LLM主导对话进程并引导对话目标的情况下的潜在可能性仍被广泛忽视。在本研究中，我们首先将LLM引导的对话划分为三个基本组成部分：(i) 目标导航；(ii) 上下文管理；(iii) 同理心参与，提出GuideLLM作为一种安装方案。随后，我们实现了一个面试环境，用于评估LLM引导的对话。具体来说，该环境中涉及多个话题，以进行全面的面试评估，产生约1.4千个对话回合、184千个标记，以及每个聊天机器人的面试过程中提及的超过200个事件。我们从面试质量和自传生成质量的角度将GuideLLM与6种最先进的LLM（如GPT-4o和Llama-3-70b-Instruct）进行比较。对于自动评估，我们从多个自传中提取用户代理，并采用LLM作为评委来评分LLM的行为。我们还通过45名人类参与者与GuideLLM和基线系统进行对话，进行了人工参与实验。我们收集了关于对话和自传质量的人类反馈、偏好和评级。实验结果表明，GuideLLM在自动评估中显著优于基线LLM，在人类评分中也表现出一致的领先性能。