LLM2D
重实质胜于重风格:评估主动对话辅导代理
Substance over Style: Evaluating Proactive Conversational Coaching Agents
作者: Vidya Srinivas, Xuhai Xu, Xin Liu, Kumar Ayush, Isaac Galatzer-Levy, Shwetak Patel, Daniel McDuff, Tim Althoff
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19328v1

摘要

arXiv:2503.19328v1 交叉公告类型 摘要:尽管自然语言处理(NLP)研究在对话任务方面取得了进展,但许多方法主要集中于单一轮次的响应,这些响应具有明确定义的目标或评估标准。相比之下,辅导提出了独特的挑战,初始目标未定义,通过多轮互动逐渐演变,具有主观的评估标准和混合主动对话。在本文中,我们描述并实现了五个具有不同对话风格的多轮次辅导代理,并通过用户研究对其进行评估,收集了155次对话的首人反馈。我们发现用户高度重视核心功能,而缺乏核心功能的风格化组件则被视为负面。通过对用户反馈与健康专家和语言模型的三方评估进行比较,我们揭示了评估方法间的显著不一致。我们的研究结果为对话辅导代理的设计和评估提供了见解,并有助于改善以用户为中心的NLP应用。