LLM2D

摘要

面向任务的对话 (ToD) 系统需要解决多个子目标才能实现用户目标，而反馈通常只在对话结束时获得。在这项工作中，我们提出了 SUIT（基于子目标的迭代训练）——一种用于改进 ToD 系统的迭代训练方法。我们从我们旨在改进的模型中采样对话，并使用远程监督来确定有助于对话成功的子目标，从而获得高质量的训练样本。我们展示了这些数据如何改进监督微调或替代的偏好学习结果。SUIT能够迭代地生成更多数据，而不是依赖于固定的静态数据集。SUIT 在一个流行的 ToD 基准测试中达到了新的最先进的性能。