摘要
arXiv:2505.09925v1 交互持续学习类型:跨学科
摘要:本文介绍了一种交互式持续学习范式,其中AI模型通过实时人类反馈动态学习新技能,同时保留先前的知识。该范式独特地解决了传统持续学习的两大主要局限性:(1)使用流式、实时人类标注数据进行动态模型更新,而非固定标签的静态数据集,以及(2)通过明确处理常见的嘈杂反馈来应对干净标签的假设。为了应对这些问题,我们提出了一种RiCL框架,利用大型语言模型(LLMs)从动态反馈中有效地学习新技能。RiCL包含三个关键组件:一种时间一致性意识净化器,能够自动区分数据流中的干净样本与嘈杂样本;一种交互意识直接偏好优化策略,通过调和AI生成和人类提供的反馈来使模型行为与人类意图保持一致;以及一种噪声耐受对比学习模块,通过利用固有的数据关系捕捉稳健的表示,从而避免依赖可能不可靠的标签。在两个基准数据集(FewRel和TACRED)上进行的实验表明,我们的RiCL方法在存在现实噪声模式污染的情况下,显著优于现有最先进的在线持续学习和嘈杂标签学习方法的组合。