LLM2D
将语言模型转换为价值导向的战略规划者
Convert Language Model into a Value-based Strategic Planner
作者: Xiaoyu Wang, Yue Zhao, Qingqing Gu, Zhonglin Jiang, Xiaokai Chen, Yong Chen, Luo Ji
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.06987v1

摘要

arXiv:2505.06987v1 交叉领域类型:跨领域 摘要:情感支持对话(ESC)旨在通过有效的对话减轻个体的情感困扰。虽然大规模语言模型(LLMs)在ESC方面取得了显著进展,但大多数研究可能并未从状态模型的角度定义该图,因此无法为长期满意度提供最优解决方案。为解决这一问题,我们利用Q学习技术在LLMs上进行研究,并提出了一种名为straQ*的框架。该框架允许插拔的LLMs在ESC期间进行规划,根据长期回报确定最优策略,最终引导LLMs进行响应。在ESC数据集上的大量实验表明,straQ*在与直接推理、自我完善、思路链、微调和有限状态机等许多基线方法相比时表现更优。