从人类反馈中进行强化学习 (RLHF) 已成为将大型语言模型 (LLM) 与人类偏好对齐的关键工具。直接偏好优化 (DPO) 是最流行的方法之一,它将 RLHF 形式化为一个策略优化问题,而无需明确估计奖励函数。它克服了传统两步方法的稳定性和效率问题,这些方法通常涉及首先估计奖励函数,然后通过近端策略优化 (PPO) 优化策略。由于 RLHF 本质上是一个优化问题,并且众所周知,动量技术可以在理论上和经验上加速优化,因此自然会产生一个问题:动量可以加速 RLHF 吗?本文对此问题给出了肯定的答案。具体而言,我们首先证明迭代偏好优化方法可以看作是一种近端点方法。基于此观察,我们提出了一个通用的加速偏好优化 (APO) 框架,该框架统一了许多现有的偏好优化算法,并采用 Nesterov 动量技术来加速 LLM 的对齐。在理论上,我们证明了 APO 可以比标准迭代偏好优化方法(包括 DPO 和自博弈偏好优化 (SPPO))实现更快的收敛速度。在经验上,我们展示了 APO 在 AlpacaEval 2.0 基准测试中相对于 DPO、迭代 DPO 和其他强大的基线的优越性。
我们提出了一种新的漏洞,它利用自回归模型中的固定点,并利用它来构造永不停止的查询,即不会终止的 LLM 输出。更准确地说,对于我们所说的非停止查询,LLM 永远不会采样字符串结束标记 ( )。我们严格分析了非停止异常出现的情况。特别地,在温度为零的情况下,我们证明了如果在上下文大小之外的输出中观察到重复(循环)的标记序列,那么 LLM 不会停止。
我们在基本(未对齐)模型中进行的一系列实验中证明了非停止异常,其中重复的标记会立即导致如分析预测的那样的非停止循环行为。此外,我们开发了一个简单的方案,该方案利用在基本模型中观察到的相同固定点,并创建一个提示结构来针对对齐模型。我们研究了该方案在绕过对齐方面的一系列 LLM 中的行为,包括 GPT-4o、llama-3-8b-instruct 和 gemma-2-9b-it,其中所有模型都被迫进入非停止状态。此外,我们证明了该方案在将过去一年发布的大多数主要模型发送到非停止状态方面的成功,即使在更高的温度下,也使用相同的简单提示。此外,我们研究了基于直接反转的技术来构造新的短提示以诱导非停止状态。我们使用基于梯度搜索的反转技术 ARCA 进行的实验表明,非停止现象在模型中普遍存在,并且可以通过几个输入标记轻松诱导。
虽然可以通过在采样器中配置硬最大令牌限制来缓解其对托管系统可靠性的影响,但非停止异常仍然设法破坏了对齐。这强调了需要进一步研究和更强的对齐形式来对抗非停止异常。
变分法是函数优化数学,即当解是时间间隔上的函数时。这在时间间隔未知的情况下(如最小时间控制问题)尤其重要,因此无法进行时间向前解。变分法为学习最优控制和推理提供了一个强大的框架。如何利用这个框架设计神经网络来解决控制和推理方面的挑战?我们提出了庞特里亚金最大值原理神经网络(PMP-net),它专门用于估计控制和推理解,符合庞特里亚金最大值原理概述的必要条件。我们在两个经典的最优控制和推理问题上评估了 PMP-net:最优线性滤波和最小时间控制。我们的发现表明,PMP-net 可以有效地以无监督方式进行训练来解决这些问题,而无需真实数据,成功地推导出经典的“卡尔曼滤波器”和“bang-bang”控制解。这为解决一般性的、可能尚未解决的最优控制问题提供了一种新方法。
随着 ChatGPT 和其他同等规模的最先进大型语言模型 (LLM) 的成功,科学文献中出现了这些模型具有新兴的人类社交推理能力,尤其是心智理论 (ToM) 的说法。一方面,这些 ToM 能力已通过类似于心理学中使用的任务进行成功测试(Kosinski,2023 年)。另一方面,后续研究表明,当任务略微改变时,这些能力就会消失(Ullman,2023 年)。在这项工作中,我们引入了一个包含 68 个任务的新数据集,用于探测 LLM 中的 ToM,包括可能具有挑战性的变体,这些变体被分配到 10 个复杂性类别。这样,它为 LLM 在这些任务变体中面临的挑战提供了新的见解。我们评估了四个最先进的开源 LLM 在我们数据集和(Kosinski,2023 年)引入的数据集上的 ToM 性能。所有评估模型的总体低目标准确率表明 ToM 能力有限。LLM 在两个数据集中的简单复杂性类别任务上的表现相似。然而,我们发现所有测试的 LLM 都表现出一种一致的趋势,即在需要认识到代理人了解其环境中自动状态变化的任务上表现不佳,即使这些变化被明确地告诉模型。对于通过替换介词来改变物体之间关系的任务复杂性,我们注意到所有模型的性能下降,对专家混合模型的影响最大。通过我们按复杂性分组的任务数据集,我们为进一步研究如何稳定和提高 LLM 中的 ToM 能力提供了方向。
离散扩散模型在标准基准测试中取得了最先进的性能,超越或接近自回归模型。在本研究中,我们介绍了带有计划去噪的离散扩散(DDPD),这是一种新颖的框架,它将生成过程分为两个模型:计划器和去噪器。在推理阶段,计划器通过识别需要去噪的最受损位置(包括最初受损的位置和需要额外细化的位置)来选择接下来去噪的位置。这种计划和去噪的方法通过迭代地识别和去噪以最佳顺序出现的损坏,实现了更有效的生成重建。DDPD 超越了传统的仅去噪器掩码扩散方法,在文本8、OpenWebText 等语言建模基准测试以及 ImageNet $256 \times 256$ 上的基于令牌的生成方面取得了优异的成果。值得注意的是,在语言建模方面,DDPD 在生成困惑度方面显著缩小了基于扩散的方法和自回归方法之间的性能差距。代码可在 https://github.com/liusulin/DDPD 获取。
确保模型的可解释性和鲁棒性对于深度视觉系统的可靠部署至关重要。当前评估鲁棒性的方法依赖于收集和标注大量的测试集。虽然这是一种常见的做法,但该过程劳动密集且成本高昂,并且不能保证对感兴趣属性的充分覆盖。最近,模型诊断框架应运而生,利用用户输入(例如,文本)来评估模型的脆弱性。然而,鉴于特定用户的领域知识,这种对人类的依赖可能会引入偏差和局限性。本文提出了一种无监督模型诊断 (UMO) 方法,该方法利用生成模型来生成语义反事实解释,而无需任何用户指导。给定一个可微分的计算机视觉模型(即目标模型),UMO 在生成潜空间中优化最反事实的方向。我们的方法识别并可视化语义变化,然后将这些变化与来自广泛文本来源(例如字典或语言模型)的属性进行匹配。我们在多个视觉任务(例如,分类、分割、关键点检测)上验证了该框架。大量的实验表明,我们对语义方向的无监督发现可以正确地突出显示虚假关联,并在没有任何人工干预的情况下可视化目标模型的故障模式。
科特韦格-德弗里斯(KdV)方程是一个基本的偏微分方程,它模拟了浅水和其他色散介质中的波传播。准确地求解 KdV 方程对于理解物理学和工程应用中的波动力学至关重要。该项目重点实施 Crank-Nicolson 格式,这是一种以其稳定性和准确性而闻名的有限差分方法,用于求解 KdV 方程。Crank-Nicolson 格式的隐式性质允许更稳定的数值解,特别是在处理 KdV 方程的色散和非线性项时。我们通过各种测试用例研究了该格式的性能,分析了它的收敛性和误差行为。结果表明,Crank-Nicolson 方法为求解 KdV 方程提供了一种稳健的方法,与传统的显式方法相比,其精度有所提高。代码在本文末尾提供。
尽管大型语言模型 (LLMs) 在许多领域取得了成功,但在需要在不确定性条件下进行最佳决策的场景中,它们的研究仍然不足。这一点至关重要,因为从个性化推荐到医疗干预的许多现实世界应用都要求 LLMs 不仅能够预测,而且能够主动学习通过探索做出最佳决策。在这项工作中,我们衡量了 LLMs 在 bandit 问题中的(不)能力,这是一个与许多应用相关的无状态强化学习设置。我们开发了一套全面的环境,包括具有不同任务难度的无上下文和上下文 bandit 问题,以对 LLMs 的性能进行基准测试。受存在最佳探索算法的启发,我们提出了将这种算法知识有效地整合到 LLMs 中的方法:在推理过程中提供显式的算法引导支持;以及通过使用这些算法生成的合成数据,通过上下文演示和微调进行算法蒸馏。令人印象深刻的是,这些技术使我们能够使用更小的模型实现卓越的探索性能,在各种任务上超过了更大的模型。我们进行了广泛的消融研究,以阐明影响 LLM 探索效率的各种因素,例如任务难度和数据表示。此外,我们使用遗憾的概念对 LLM 的探索效率进行了严格的分析,将它探索的能力与其模型大小和底层算法联系起来。
为了在建筑规模上运行,服务机器人必须通过导航到不同的房间、进入不同的楼层以及与各种未曾见过的日常物体进行交互来执行非常长期的移动操作任务。我们将这些任务称为建筑范围内的移动操作。为了应对这些本质上长期的任务,我们引入了 BUMBLE,一个基于统一视觉语言模型 (VLM) 的框架,它集成了开放世界 RGBD 感知、广泛的从粗到细的运动技能以及双层记忆。我们广泛的评估(90 多个小时)表明,BUMBLE 在需要对长达 15 分钟的试验进行长达 12 个地面实况技能排序的长周期建筑范围任务中,优于多个基线。BUMBLE 在来自不同起始房间和楼层的不同建筑物、任务和场景布局中,在 70 次试验中平均实现了 47.1% 的成功率。我们的用户研究表明,与最先进的移动操作方法相比,我们的方法的满意度高出 22%。最后,我们展示了使用越来越强大的基础模型来进一步提高性能的潜力。有关更多信息,请参见 https://robin-lab.cs.utexas.edu/BUMBLE/
大型视觉和语言助手为自然图像的解释提供了新的功能。这些方法最近被应用于地球观测数据,但它们只能处理单张图像输入,限制了其在许多现实世界任务中的应用。在本研究中,我们开发了一种名为TEOChat的新型视觉和语言助手,它可以参与关于地球观测数据时间序列的对话。为了训练TEOChat,我们整理了一个指令遵循数据集,其中包含许多单图像和时间任务,包括建筑物变化和损害评估、语义变化检测和时间场景分类。我们证明了TEOChat可以执行各种空间和时间推理任务,显著优于之前的视觉和语言助手,甚至在执行这些特定任务的专业模型方面取得了相当或更好的性能。此外,TEOChat在变化检测和变化问答数据集上取得了令人印象深刻的零样本性能,在多个时间任务上优于GPT-4o和Gemini 1.5 Pro,并且表现出比可比的单一EO图像指令遵循模型更强的单图像能力。我们公开发布我们的数据、模型和代码,地址为https://github.com/ermongroup/TEOChat。