LLM2D

摘要

arXiv:2502.00747v1 宣告类型: cross 摘要: 后处理网络（PPNs）是任务导向对话系统中修改任意模块输出的组件，并通过强化学习（RL）进行优化，以提高系统的整体任务完成能力。然而，以前基于PPN的方法仅限于处理系统内的子集模块，这在提高系统性能方面存在显著的限制。在本研究中，我们提出了一种针对所有模块输出进行联合优化的方法，使用基于语言模型的后处理网络（UniPPNs），这是一种可以将系统中任意模块的输出作为序列转换任务进行修改的网络。此外，我们的RL算法采用模块级别的马尔可夫决策过程，使得对每个模块进行精细的价值和优势估计成为可能，从而稳定所有模块输出后处理的联合学习。通过使用MultiWOZ数据集进行的基于仿真的实验和人类评估实验，我们证明了UniPPN在任务导向对话系统中的任务完成能力上优于传统的PPNs。