LLM2D

摘要

arXiv:2505.06987v1 交叉领域类型：跨领域摘要：情感支持对话（ESC）旨在通过有效的对话减轻个体的情感困扰。虽然大规模语言模型（LLMs）在ESC方面取得了显著进展，但大多数研究可能并未从状态模型的角度定义该图，因此无法为长期满意度提供最优解决方案。为解决这一问题，我们利用Q学习技术在LLMs上进行研究，并提出了一种名为straQ*的框架。该框架允许插拔的LLMs在ESC期间进行规划，根据长期回报确定最优策略，最终引导LLMs进行响应。在ESC数据集上的大量实验表明，straQ*在与直接推理、自我完善、思路链、微调和有限状态机等许多基线方法相比时表现更优。