现代大型语言模型 (LLM) 能够生成高度可读的抽象摘要,以至于传统的用于评估摘要质量的自动化指标(如 ROUGE)已经饱和。然而,LLM 有时仍会在摘要中引入不需要的内容,即与来源不一致或来源不支持的信息。自动衡量这些通常难以察觉的“幻觉”已被证明具有挑战性。这反过来又促使人们开发各种指标来衡量生成的摘要与其来源的事实一致性。但这些方法是否真的在衡量它们声称要衡量的内容呢?在这项工作中,我们对自动事实性指标进行了压力测试。具体来说,我们研究了摘要文本的表面属性在多大程度上足以预测“事实性”,发现仅使用此类浅层特征的(监督式)模型与最先进的事实性评分方法具有相当的竞争力。然后,我们评估了事实性指标如何响应不一致摘要中的事实更正,发现只有少数指标显示出有意义的改进。相反,一些指标对良性的、非事实性的编辑更为敏感。基于这些见解,我们证明可以“操纵”(大多数)自动事实性指标,即通过在生成的摘要中添加无害的句子来可靠地提高“事实性”分数。总而言之,我们的结果对我们应该在多大程度上依赖现有的自动化事实性指标以及我们究竟希望“事实性指标”衡量什么提出了质疑。
基于人类演示训练的生成策略能够自主完成多模态、长时序的任务。然而,在推理过程中,人类通常被排除在策略执行循环之外,这限制了引导预训练策略朝着特定子目标或轨迹形状(在多个预测结果中)的能力。简单的的人工干预可能会无意中加剧分布偏移,导致约束违反或执行失败。为了在不引起分布外错误的情况下更好地使策略输出与人类意图保持一致,我们提出了一种推理时策略引导 (ITPS) 框架,该框架利用人机交互来引导生成采样过程,而不是对交互数据进行策略微调。我们在三个模拟和现实世界的基准测试中评估了 ITPS,测试了三种形式的人机交互和相关的对齐距离度量。在六种采样策略中,我们提出的带有扩散策略的随机采样在对齐和分布偏移之间取得了最佳平衡。视频可在 https://yanweiw.github.io/itps/ 查看。
数字领域针对基于深度学习的计算机视觉模型的对抗样本允许对人类眼睛不可察觉的扰动。然而,由于视觉传感系统中不可微分的图像失真函数,在物理世界中产生类似的对抗样本一直很困难。现有的生成物理可实现对抗样本的算法往往通过允许无界扰动来放松对抗样本的定义,从而导致明显甚至奇怪的视觉模式。在这项工作中,我们使用直通估计器(STE,又名BPDA)使对抗样本在物理世界中不可察觉。我们使用STE来克服不可微性——在反向传播步骤的前向过程中应用精确的、不可微分的失真,并在反向过程中使用恒等函数。我们对STE的可微渲染扩展也使得在物理世界中产生不可察觉的对抗补丁成为可能。使用打印照片和CARLA模拟器中的实验,我们表明,尽管存在不可微分的失真,STE 仍然能够快速生成ℓ∞有界的对抗样本。据我们所知,这是第一个在物理世界中展示由小的ℓ∞范数约束的不可察觉对抗样本的工作,这些样本在全局扰动威胁模型中强制零分类精度,并在补丁扰动威胁模型中导致近乎零 (4.22%) 的 AP50 目标检测精度。我们敦促社区重新评估物理世界中对抗样本的威胁。
训练大型语言模型 (LLM) 在回应之前进行更多思考和反思,对于有效解决科学、编码和数学等领域中的复杂推理任务至关重要。然而,自我反思和自我纠正等机制的有效性取决于模型准确评估自身性能的能力,而这可能受到初始准确性、问题难度和缺乏外部反馈等因素的限制。本文深入研究了一种双人博弈范式,该范式将推理和评论模型的角色分开,其中评论模型提供步骤级反馈,以便在测试时和训练时监督推理(执行者)模型。我们首先提出了 AutoMathCritique,这是一个用于收集评论数据的自动化且可扩展的框架,它产生了一个包含 76,321 个响应及其步骤级反馈的数据集。使用该数据集微调语言模型使其能够生成针对数学推理的自然语言反馈。我们证明,评论模型在测试时始终能够提高执行者对难题的性能,尤其是在扩展推理时间计算时。基于这些发现,我们将基于评论的监督引入执行者的自训练过程,并提出了一种循环评论的自改进方法。实验表明,该方法提高了执行者的探索效率和解决方案多样性,尤其是在具有挑战性的问题上,从而产生了更强大的推理模型。最后,我们初步探索了通过评论监督训练自我对话推理模型,并展示了其潜力。我们的代码和数据集位于 \href{https://mathcritique.github.io/}{https://mathcritique.github.io/}。
算法代理被广泛应用于各种竞争性决策环境中,尤其是在从在线零售到住宅租赁等各种情境下的价格决策中。“算法串谋”的影响正开始受到商业经理、算法设计师、法律学者和监管机构的关注。我们研究了在代理商之间存在竞争但对所参与的战略互动缺乏了解的情况下,多臂老虎机机器学习算法的涌现行为。在一个通用的重复囚徒困境博弈中,代理商进行在线学习,事先没有博弈结构模型,也不知道竞争对手的状态或行动(例如,没有观察到竞争价格)。我们表明,这些没有对手选择或结果信息的无上下文老虎机仍然会持续学习串谋行为——我们称之为“幼稚串谋”。我们主要通过分析模型来研究这个系统,并通过模拟来检验模型的扰动。我们的研究结果对监管机构具有若干显著意义。首先,限制算法根据竞争对手价格进行调整的呼吁不足以防止算法串谋。这是即使在幼稚情况下也会出现串谋的直接结果。其次,算法的对称性会增加串谋的可能性。这突出了“中心-辐条”算法串谋的一种新的简单机制。中心分销商无需在其算法中灌输超竞争倾向就能出现明显的串谋;它只需使用某些(常见的)机器学习算法即可。最后,我们强调串谋结果严重依赖于所使用的特定算法,并指出了事先无法得知是否会发生串谋的市场和算法条件。
向量量化是一种将连续表示离散化为一组离散向量的机器学习技术。它广泛应用于大型语言模型、扩散模型和其他生成模型的数据表示标记化中。尽管它很普遍,但向量量化在生成模型中的特性和行为在很大程度上仍未得到充分探索。在本研究中,我们研究了向量量化中的表示崩溃——一种严重的退化,其中码本标记或潜在嵌入通过收敛到有限的子集值而失去其判别能力。这种崩溃从根本上损害了模型捕获多样化数据模式的能力。通过利用合成数据集和真实数据集,我们确定了每种类型崩溃的严重程度和触发条件。我们的分析表明,受限初始化和有限的编码器容量会导致标记崩溃和嵌入崩溃。基于这些发现,我们提出了旨在减轻每种崩溃的潜在解决方案。据我们所知,这是第一项全面研究向量量化中表示崩溃问题的研究。
空间理解是机器人根据环境做出有效决策的关键能力。这项基础技能使机器人不仅能够感知周围环境,还能对环境进行推理并进行有意义的交互。在现代机器人技术中,这些能力由视觉语言模型承担,但在应用于空间推理环境时,它们面临着巨大的挑战,因为其训练数据来源存在局限性。这些来源利用通用图像数据集,往往缺乏复杂的空间场景理解能力。例如,这些数据集没有解决参考系理解的问题——空间关系需要清晰的上下文理解,无论是以自我为中心、以物体为中心还是以世界为中心,这才能实现有效的现实世界交互。为了解决这个问题,我们引入了RoboSpatial,这是一个大型空间理解数据集,包含作为3D扫描和以自我为中心的图像捕获的真实室内和桌面场景,并标注了与机器人相关的丰富空间信息。该数据集包含100万张图像、5000次3D扫描和300万个标注的空间关系,并配对2D以自我为中心的图像和3D扫描,使其既适用于2D也适用于3D。我们的实验表明,使用RoboSpatial训练的模型在空间可供性预测、空间关系预测和机器人操作等下游任务上优于基线模型。
我们研究了基于transformer的基础模型中提示微调的统计和计算极限。我们的主要贡献是仅在一个具有\textit{单个}自注意力层的\textit{单头}transformer上进行提示微调:(i)具有普遍性,并且(ii)在强指数时间假设(SETH)下支持高效(甚至几乎线性时间)算法。在统计上,我们证明了在这种最简单的transformer上进行提示微调是序列到序列Lipschitz函数的通用逼近器。此外,我们提供了一个关于所需软提示标记的指数级(关于$dL$和$(1/\epsilon)$)下界,用于提示微调以记住任何具有1层、1头transformer的数据集。在计算方面,我们确定了提示微调效率的相变,该相变由\textit{软提示诱导的}键和查询的范数决定,并提供了一个上限标准。超过此标准,在SETH下不存在用于提示微调的任何次二次(高效)算法。在此标准内,我们通过证明几乎线性时间提示微调推理算法的存在来展示我们的理论。这些基本限制为从业者设计表达性和高效的提示微调方法提供了重要的必要条件。
奖励模型 (RM) 是使大型语言模型 (LLM) 的输出与人类价值观保持一致的关键组成部分。RM 通过预测和比较对同一提示的 LLM 可能响应的奖励分数来近似人类偏好。然而,由于它们通常是具有标量输出头的 LLM 的修改版本,因此 RM 是难以解释的“黑箱”。更透明的 RM 将增强对 LLM 对齐的信任。在这项工作中,我们建议使用对比解释来解释 RM 做出的任何二元响应比较。具体来说,我们生成一组与原始比较类似的多样化新比较,以表征 RM 的局部行为。构成新比较的扰动响应旨在显式修改手动指定的高级评估属性,RM 行为分析以此为基础。在定量实验中,我们验证了我们的方法在寻找高质量对比解释方面的有效性。然后,我们展示了我们的方法在调查 RM 对每个评估属性的全局敏感性方面的定性实用性,并演示了如何自动提取代表性示例来解释和比较不同 RM 的行为。我们将我们的方法视为一个灵活的 RM 解释框架,为更可解释和值得信赖的 LLM 对齐奠定了基础。
本文批判性地审视了当前复制OpenAI O1模型能力的方法,特别关注知识蒸馏技术的广泛应用(尽管常常未公开披露)。虽然我们之前的研究探索了复制O1模型的基本技术路径,但本研究揭示了如何通过简单的O1 API蒸馏结合监督微调,在复杂的数学推理任务上取得优异的性能。通过大量的实验,我们表明,在一个仅用数万个O1蒸馏的长链样本进行微调的基础模型上,在无需复杂技术的情况下,其在全美邀请数学考试(AIME)上的表现优于O1预览版。此外,我们的研究还超越了数学推理,探索了O1蒸馏模型在不同任务上的泛化能力:幻觉、安全性和开放域问答。值得注意的是,尽管只在数学问题求解数据上进行训练,我们的模型在开放式问答任务中表现出强大的泛化能力,并且在微调后对谄媚行为的敏感性显著降低。我们故意公开这一发现,以促进人工智能研究的透明度,并挑战该领域目前模糊的技术声明的趋势。我们的工作包括:(1)对蒸馏过程及其有效性的详细技术阐述;(2)一个全面的基准框架,用于根据其技术透明度和可重复性评估和分类O1复制尝试;(3)对过度依赖蒸馏方法的局限性和潜在风险的批判性讨论;我们的分析最终得出一个至关重要的教训:虽然追求更强大的AI系统很重要,但培养基于第一性原理思考的研究人员至关重要。