LLM2D
GuideLLM:探索由LLM引导的对话及其在自传访谈中的应用
GuideLLM: Exploring LLM-Guided Conversation with Applications in Autobiography Interviewing
作者: Jinhao Duan, Xinyu Zhao, Zhuoxuan Zhang, Eunhye Ko, Lily Boddy, Chenan Wang, Tianhao Li, Alexander Rasgon, Junyuan Hong, Min Kyung Lee, Chenxi Yuan, Qi Long, Ying Ding, Tianlong Chen, Kaidi Xu
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06494v1

摘要

arXiv:2502.06494v1 支持类型: 横向研究 摘要: 尽管大型语言模型(LLMs)在指导性对话如指令遵循和问答任务中表现出色,但在LLM引导的对话中,即LLM主导对话进程并引导对话目标的情况下的潜在可能性仍被广泛忽视。在本研究中,我们首先将LLM引导的对话划分为三个基本组成部分:(i) 目标导航;(ii) 上下文管理;(iii) 同理心参与,提出GuideLLM作为一种安装方案。随后,我们实现了一个面试环境,用于评估LLM引导的对话。具体来说,该环境中涉及多个话题,以进行全面的面试评估,产生约1.4千个对话回合、184千个标记,以及每个聊天机器人的面试过程中提及的超过200个事件。我们从面试质量和自传生成质量的角度将GuideLLM与6种最先进的LLM(如GPT-4o和Llama-3-70b-Instruct)进行比较。对于自动评估,我们从多个自传中提取用户代理,并采用LLM作为评委来评分LLM的行为。我们还通过45名人类参与者与GuideLLM和基线系统进行对话,进行了人工参与实验。我们收集了关于对话和自传质量的人类反馈、偏好和评级。实验结果表明,GuideLLM在自动评估中显著优于基线LLM,在人类评分中也表现出一致的领先性能。