摘要
arXiv:2505.06987v1 交叉领域类型:跨领域
摘要:情感支持对话(ESC)旨在通过有效的对话减轻个体的情感困扰。虽然大规模语言模型(LLMs)在ESC方面取得了显著进展,但大多数研究可能并未从状态模型的角度定义该图,因此无法为长期满意度提供最优解决方案。为解决这一问题,我们利用Q学习技术在LLMs上进行研究,并提出了一种名为straQ*的框架。该框架允许插拔的LLMs在ESC期间进行规划,根据长期回报确定最优策略,最终引导LLMs进行响应。在ESC数据集上的大量实验表明,straQ*在与直接推理、自我完善、思路链、微调和有限状态机等许多基线方法相比时表现更优。