LLM2D
基于迭代训练,从成功的任务型对话中学习相关子目标
Learning from Relevant Subgoals in Successful Dialogs using Iterative Training for Task-oriented Dialog Systems
作者: Magdalena Kaiser, Patrick Ernst, Gy\"orgy Szarvas
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.16305v1

摘要

面向任务的对话 (ToD) 系统需要解决多个子目标才能实现用户目标,而反馈通常只在对话结束时获得。在这项工作中,我们提出了 SUIT(基于子目标的迭代训练)——一种用于改进 ToD 系统的迭代训练方法。我们从我们旨在改进的模型中采样对话,并使用远程监督来确定有助于对话成功的子目标,从而获得高质量的训练样本。我们展示了这些数据如何改进监督微调或替代的偏好学习结果。SUIT能够迭代地生成更多数据,而不是依赖于固定的静态数据集。SUIT 在一个流行的 ToD 基准测试中达到了新的最先进的性能。