摘要
基于 LLM 提示的模块化 AI 系统可以用于开发复杂任务,以最大程度地缩短部署时间。然而,这些系统并不总是表现良好,如何利用部署中收集的数据轨迹来改进它们仍然是一个开放性的挑战。数据轨迹包含 LLM 的输入和输出,但 LLM 的标注存在噪声。我们假设主动标签校正 (ALC) 可以应用于收集到的数据,以训练更小的特定任务改进模型,这些模型可以替代基于 LLM 的模块。在本文中,我们研究了三个 GPT-3.5 标注数据集中的噪声及其通过人工反馈进行的去噪。我们还提出了一种新方法 ALC3,该方法迭代地对训练数据集应用三个更新:自动校正、使用人工反馈进行校正和过滤。我们的结果表明,ALC3 可以实现预言性能,在三个不同的 NLP 任务中,其反馈示例数量比数据集中噪声示例数量少 17-24%。