LLM2D

摘要

arXiv:2505.09925v1 交互持续学习类型：跨学科摘要：本文介绍了一种交互式持续学习范式，其中AI模型通过实时人类反馈动态学习新技能，同时保留先前的知识。该范式独特地解决了传统持续学习的两大主要局限性：（1）使用流式、实时人类标注数据进行动态模型更新，而非固定标签的静态数据集，以及（2）通过明确处理常见的嘈杂反馈来应对干净标签的假设。为了应对这些问题，我们提出了一种RiCL框架，利用大型语言模型（LLMs）从动态反馈中有效地学习新技能。RiCL包含三个关键组件：一种时间一致性意识净化器，能够自动区分数据流中的干净样本与嘈杂样本；一种交互意识直接偏好优化策略，通过调和AI生成和人类提供的反馈来使模型行为与人类意图保持一致；以及一种噪声耐受对比学习模块，通过利用固有的数据关系捕捉稳健的表示，从而避免依赖可能不可靠的标签。在两个基准数据集（FewRel和TACRED）上进行的实验表明，我们的RiCL方法在存在现实噪声模式污染的情况下，显著优于现有最先进的在线持续学习和嘈杂标签学习方法的组合。