在强化学习中,离线值函数学习是指利用离线数据集来估计在执行固定目标策略时,从每个状态采取行动所获得的预期折扣回报的过程。该过程的稳定性,即它是否收敛到其不动点,关键取决于状态-动作对的表示形式。学习效果不佳的表示形式会导致值函数学习不稳定,甚至发散。因此,通过明确塑造状态-动作表示形式来稳定值函数学习至关重要。近年来,基于双模拟的算法在塑造控制表示形式方面展现出巨大潜力。然而,目前尚不清楚这类方法是否能够稳定值函数学习。在本研究中,我们探讨了这个问题,并给出了肯定的答案。我们引入了一种名为核表示用于离线策略评估(KROPE)的基于双模拟的算法。KROPE 使用核来塑造状态-动作表示形式,使得在目标策略下具有相似即时奖励并导致相似下一个状态-动作对的状态-动作对也具有相似的表示形式。我们证明了 KROPE:1)学习稳定的表示形式,以及 2)与基准方法相比,导致更低的值误差。我们的分析为基于双模拟方法的稳定性特性提供了新的理论见解,并表明从业人员可以使用这些方法来稳定且准确地评估离线强化学习代理。
基于预训练的大型语言模型 (LLM) 的决策代理正越来越多地部署在人类活动的各个领域。虽然它们目前的应用相当专门化,但有许多研究工作正在进行,以开发更通用的代理。随着基于 LLM 的系统变得更加自主,它们对人类活动的影响将增大,而这种影响的透明度将降低。因此,开发有效的方法来使它们与人类价值观保持一致至关重要。
目前,对齐工作中普遍的做法通常依赖于人类偏好数据(例如,在 RLHF 或 DPO 中),其中价值观是隐含的,并且本质上是从对不同模型输出的相对偏好中推断出来的。在这项工作中,我们没有依赖人类反馈,而是引入了奖励函数的设计,该函数明确地编码了核心人类价值观,用于基于强化学习的基准代理模型的微调。具体来说,我们使用内在奖励来实现 LLM 代理的道德对齐。
我们使用传统的哲学框架(即道义伦理学和功利主义)来评估我们的方法,量化代理在迭代囚徒困境 (IPD) 环境中对行动和后果的道德奖励。我们还展示了如何将道德微调部署到使代理能够忘记先前开发的自私策略。最后,我们发现,在 IPD 游戏中学到的某些道德策略可以推广到其他几个矩阵博弈环境。总之,我们证明了使用内在奖励进行微调是将 LLM 代理与人类价值观保持一致的一种有希望的通用解决方案,并且它可能代表了一种比目前占主导地位的对齐技术更透明、更具成本效益的替代方案。
文本到图像生成需要大量训练数据来合成高质量的图像。为了增强训练数据,以前的方法依赖于诸如裁剪、翻转和混合等数据插值,这些方法无法引入新的信息,并且只能带来微不足道的改进。在本文中,我们提出了一种新的基于线性外推的数据增强方法,用于文本到图像生成。具体来说,我们只对文本特征应用线性外推,并通过搜索引擎从互联网检索新的图像数据。为了确保新文本图像对的可靠性,我们设计了两个异常值检测器来净化检索到的图像。基于外推法,我们构建的训练样本规模比原始数据集大几十倍,从而显著提高了文本到图像的性能。此外,我们提出了一种 NULL 指导来细化分数估计,并应用循环仿射变换来融合文本信息。我们的模型在 CUB、Oxford 和 COCO 数据集上分别取得了 7.91、9.52 和 5.00 的 FID 分数。代码和数据将在 GitHub 上发布 (https://github.com/senmaoy/RAT-Diffusion)。
近年来,图提示已成为一个很有前景的研究方向,它能够在各种应用中学习附加到原始图上的额外标记或子图,而无需重新训练预训练的图模型。这种新范式从传统的预训练和微调转变为预训练和提示,在模拟图数据操作方面取得了显著的经验成功,其应用范围从推荐系统到生物网络和图迁移。然而,尽管具有潜力,图提示的理论基础仍未得到充分探索,这引发了关于其基本有效性的关键问题。缺乏关于其为何以及如何起作用的严格理论证明,就像一团乌云笼罩着图提示领域,阻碍着其进一步发展。为了填补这一空白,本文引入了一个理论框架,从数据操作的角度严格分析图提示。我们的贡献有三方面:首先,我们提供了一个形式保证定理,证明了图提示能够近似图变换算子,有效地将上游和下游任务联系起来。其次,我们推导出单个图上图提示数据操作误差的上限,并将讨论扩展到图批次,这是图模型训练中的常见情况。第三,我们分析了数据操作误差的分布,将我们的理论发现从线性图模型(例如,GCN)扩展到非线性图模型(例如,GAT)。大量的实验支持了我们的理论结果,并证实了这些保证的实际意义。
在自动驾驶中,准确的运动预测对于安全高效的运动规划至关重要。为了确保安全,规划器必须依赖于关于周围代理预测未来行为的可靠不确定性信息,然而,这方面却鲜有关注。本文针对轨迹预测中长期被忽视的不确定性建模问题,提出了一种全面的方法,重点关注不确定性的量化、分解以及模型组合的影响。我们的方法基于理论上扎实的基于信息论的方法来衡量不确定性,使我们能够将总不确定性分解为其偶然性和认知性成分。我们在nuScenes数据集上进行了大量实验,以评估不同的模型架构和配置如何影响不确定性量化和模型鲁棒性。
低秩训练已成为降低大型语言模型 (LLM) 训练内存使用率的一种很有前景的方法。以往的方法要么依赖于分解权重矩阵(例如 LoRA),要么寻求分解梯度矩阵(例如 GaLore)以确保降低内存消耗。然而,这两种方法都将训练限制在低秩子空间中,因此不可避免地导致次优性能。这就引发了一个问题:是否可以始终保持低秩约束以提高内存效率,同时实现全秩训练(即使用全秩权重的全秩梯度进行训练)以避免较差的结果?在本文中,我们提出了一种名为 Fira 的面向 LLM 的全新即插即用训练框架,作为实现这一目标的首次尝试。首先,我们观察到 LLM 训练期间一个有趣的现象:自适应优化器(例如 Adam)对梯度范数的缩放影响从低秩训练到全秩训练保持相似。基于这一观察,我们提出了一种基于范数的缩放方法,该方法利用低秩优化器的缩放影响作为原始全秩优化器的替代,以实现全秩训练。通过这种方式,我们可以保留优化器中的低秩约束,同时实现全秩训练以获得更好的性能。此外,我们发现优化过程中存在梯度突然上升的情况,这可能会导致损失激增。为了解决这个问题,我们进一步提出了一个范数增长限制器,通过调节梯度范数的相对增长来平滑梯度。在 LLM 预训练和微调方面的广泛实验表明,Fira 优于 LoRA 和 GaLore,实现了与全秩训练相当甚至更好的性能。
数据集缩减 (DR) 旨在从大型数据集中选择或提炼样本,以构建更小的子集,同时保持目标任务的性能。现有的方法主要集中在对原始数据集中的数据进行剪枝或合成,通常是输入数据和相应的标签。然而,在 DR 设置中,我们发现可以合成超出数据-标签对的更多信息作为额外的学习目标,以促进模型训练。在本文中,我们介绍了使用特权信息的数据集缩减 (DRUPI),它通过在缩减后的数据集中合成特权信息来丰富 DR。这种特权信息可以采取特征标签或注意力标签的形式,提供辅助监督以改进模型学习。我们的发现表明,有效的特征标签必须在过度区分和过度多样化之间取得平衡,中等程度的标签被证明是提高缩减数据集有效性的最佳选择。在 ImageNet、CIFAR-10/100 和 Tiny ImageNet 上的广泛实验表明,DRUPI 可以与现有数据集缩减方法无缝集成,并提供显著的性能提升。
混合专家模型 (MoE) 在大型语言模型 (LLM) 中表现出色,并在众多自然语言处理任务中展现出优异的性能。然而,现有的将 LLM 从密集模型转换为 MoE 模型的方法面临着巨大的数据需求,并且通常依赖于大规模的后期训练。本文提出了一种名为“升级指令微调”(UpIT)的数据高效方法,用于将预训练的密集模型微调为 MoE 指令模型。具体来说,我们首先指出密集模型指令微调过程中的中间检查点自然适合作为专业专家,然后提出了一种专家扩展阶段,以灵活地实现具有灵活专家数量的模型,其中引入了遗传算法和参数合并来确保新扩展专家的充分多样性。为了确保 MoE 模型中的每个专业专家都能按预期工作,我们选择少量每个专家擅长的种子数据来预优化路由器。对各种数据规模和升级设置的广泛实验表明了 UpIT 的优异性能和数据效率,以及专家或数据扩展的稳定改进。进一步分析揭示了在升级过程中确保专家多样性的重要性。
红队评估旨在评估大型语言模型 (LLM) 如何生成违反其安全训练期间设定的规范、政策和规则的内容。然而,文献中大多数现有的自动化方法并不代表人类与 AI 模型交互的方式。AI 模型的普通用户可能没有对抗性机器学习方法的先进知识或访问模型内部,并且他们不会花很多时间来精心制作一个高度有效的对抗性提示。相反,他们更有可能利用在线共享的常见技术,并利用 LLM 的多轮对话性质。虽然手动测试解决了这一差距,但这是一个低效且通常昂贵的过程。为了解决这些限制,我们引入了生成式攻击性代理测试器 (GOAT),这是一个自动代理红队系统,它模拟普通语言对抗性对话,同时利用多种对抗性提示技术来识别 LLM 中的漏洞。我们通过以一种鼓励推理通过可用方法的选择、当前目标模型的响应和下一步的方式提示通用模型,用 7 种红队攻击实例化 GOAT。我们的方法旨在可扩展且高效,允许人类测试人员专注于探索新的风险领域,而自动化则涵盖已知风险领域的规模化对抗性压力测试。我们介绍了 GOAT 的设计和评估,证明了其在识别最先进 LLM 中漏洞方面的有效性,在 JailbreakBench 数据集上,Llama 3.1 的 ASR@10 为 97%,GPT-4 为 88%。
在基于查询的旅行推荐系统 (RS) 中,理解用户在提出具有挑战性的自然语言 (NL) 目的地查询背后的意图至关重要,例如措辞宽泛的“适合青少年的活动”或间接描述的“高中毕业旅行”。此类查询具有挑战性,因为潜在用户意图的范围广泛且微妙,这阻碍了检索方法从维基导游等现有文本描述中推断相关目的地。虽然查询重构 (QR) 已被证明可通过解决用户意图来有效地增强检索,但现有的 QR 方法往往只关注扩展潜在匹配查询子主题的范围(广度)或详细说明查询的潜在含义(深度),而不是两者兼顾。在本文中,我们介绍了扩展子主题查询重构 (EQR),这是一种基于大型语言模型的 QR 方法,它通过生成具有信息丰富的扩展的潜在查询子主题来结合广度和深度。我们还发布了 TravelDest,这是一个用于基于查询的旅行目的地 RS 的新数据集。在 TravelDest 上进行的实验表明,与现有的最先进的 QR 方法相比,EQR 在召回率和准确率方面取得了显著的提升。