LLM2D

摘要

arXiv:2503.19328v1 交叉公告类型摘要：尽管自然语言处理（NLP）研究在对话任务方面取得了进展，但许多方法主要集中于单一轮次的响应，这些响应具有明确定义的目标或评估标准。相比之下，辅导提出了独特的挑战，初始目标未定义，通过多轮互动逐渐演变，具有主观的评估标准和混合主动对话。在本文中，我们描述并实现了五个具有不同对话风格的多轮次辅导代理，并通过用户研究对其进行评估，收集了155次对话的首人反馈。我们发现用户高度重视核心功能，而缺乏核心功能的风格化组件则被视为负面。通过对用户反馈与健康专家和语言模型的三方评估进行比较，我们揭示了评估方法间的显著不一致。我们的研究结果为对话辅导代理的设计和评估提供了见解，并有助于改善以用户为中心的NLP应用。