ReLU 网络是多胞形上的分段线性函数。弄清楚这类多胞形的性质对于神经网络的研究和发展至关重要。迄今为止,关于多胞形的理论或实证研究仅停留在计数其数量的层面,这远非完整的刻画。在这里,我们建议通过多胞形的面的数量来研究多胞形的形状。然后,通过计算和分析多胞形上面的直方图,我们发现,尽管这些多胞形可以通过特定设计变得相当多样化和复杂,但在初始化和梯度下降下,ReLU 网络具有相对简单的多胞形。这一发现可以被理解为一种广义的隐式偏差,服从于 ReLU 网络空间划分中的内在几何约束。接下来,我们进行组合分析,通过用维度限制多胞形的平均面数来解释为什么增加深度不会产生更复杂的多胞形。我们的结果具体揭示了网络学习什么样的简单函数以及网络深度增加时会发生什么。此外,通过刻画多胞形的形状,面的数量可以成为其他问题的新的杠杆,例如,作为解释流行的快捷网络(如 ResNet)能力的通用工具,以及分析不同正则化策略对网络空间划分的影响。
神经网络 (NN) 对更高性能和精度的需求永无止境。现有的张量编译和神经架构搜索 (NAS) 技术正交地优化这两个目标,但实际上它们的具体策略有很多相似之处。我们通过将两者结合成一个整体来利用这些机会,并论证了内核架构搜索 (KAS) 的必要性。KAS 从系统角度回顾了 NAS,并深入到更细粒度的层次,以生成具有高性能和良好准确性的神经网络内核。为了展示 KAS 的潜力,我们构建了一个端到端的框架 Canvas,以寻找高质量的内核来替代卷积。Canvas 从丰富的细粒度基元集合中采样,以随机迭代的方式构建新的内核,并根据用户指定的约束条件对其进行评估。Canvas 支持在内核内部自由调整张量维度大小,并使用两级求解器来满足结构合法性并充分利用模型预算。评估结果表明,通过在常见的 NNs 中用生成的新的内核替换标准卷积,与之前的最先进技术相比,Canvas 平均实现了 1.5 倍的加速,同时精度损失和搜索效率都可接受。Canvas 通过重新发现过去许多人工设计的内核并产生可能激发未来机器学习创新的新结构,验证了 KAS 的实用性。我们已在 https://github.com/tsinghua-ideal/Canvas 开源了 Canvas 的源代码和实现。
我们描述了一种测度量化过程,即一种算法,该算法通过$Q$个狄拉克测度之和($Q$为量化参数)来寻找目标概率律(更一般地,是符号有限变差测度)的最佳近似值。该过程通过最小化原始测度与其量化版本之间的统计距离来实现;该距离由一个负定核构建,并且如果需要,可以在运行时计算并馈送到随机优化算法(例如SGD、Adam等)。我们从理论上研究了最优测度量化器的存在性基本问题,并确定了哪些核属性能够保证合适的行为。我们提出了两个最佳线性无偏估计量(BLUE)来估计平方统计距离,并在一个称为HEMQ的无偏过程中使用它们来寻找最优量化。我们在几个数据库上测试了HEMQ:多维高斯混合、维纳空间cubature、意大利葡萄酒品种和MNIST图像数据库。结果表明,HEMQ算法具有鲁棒性和通用性,并且对于Huber能量核类,其结果与预期的直观行为相符。
我们介绍了 FrontierMath,这是一个由专家数学家精心设计和审核的数百个原创、极具挑战性的数学问题组成的基准测试集。这些问题涵盖了现代数学的大多数主要分支——从数论和实分析中计算密集型的问题到代数几何和范畴论中的抽象问题。解决一个典型的问题需要相关数学分支的研究人员花费数小时的努力,而对于难度较高的题目,则需要数天的时间。FrontierMath 使用新的、未发表的问题和自动验证来可靠地评估模型,同时最大限度地减少数据污染的风险。目前最先进的 AI 模型只能解决不到 2% 的问题,这揭示了 AI 能力与数学界实力之间巨大的差距。随着 AI 系统朝着专家级的数学能力发展,FrontierMath 提供了一个严格的测试平台来量化它们的进步。
大型语言模型 (LLM) 已经展现出令人印象深刻的能力,但仍然难以胜任需要多步骤的复杂推理任务。虽然基于提示的方法,例如思维链 (CoT),可以在推理时改进 LLM 的推理能力,但在训练期间优化推理能力仍然具有挑战性。我们引入了潜在推理优化 (LaTRO) 框架,该框架将推理公式化为从潜在分布中采样并通过变分方法对其进行优化。LaTRO 使 LLM 能够同时改进其推理过程和评估推理质量的能力,而无需外部反馈或奖励模型。我们通过使用多个模型架构在 GSM8K 和 ARC-Challenge 数据集上进行的实验验证了 LaTRO。在 GSM8K 上,与基准模型相比,LaTRO 将零样本准确率平均提高了 12.5%,与 Phi-3.5-mini、Mistral-7B 和 Llama-3.1-8B 的监督微调相比提高了 9.6%。我们的研究结果表明,预训练的 LLM 拥有可以通过我们提出的自改进优化方法解锁和增强的潜在推理能力。LaTRO 的代码可在 \url{https://github.com/SalesforceAIResearch/LaTRO} 获取。
大型语言模型 (LLM) 的卓越能力使其成为各种自主代理系统的关键组成部分。虽然传统方法依赖于LLM的固有知识而无需微调,但最近的方法已转向强化学习策略,以进一步增强代理解决与环境和工具进行复杂交互式任务的能力。然而,先前的方法受到稀疏奖励问题的限制,现有数据集仅为每个多步骤推理链提供最终的标量奖励,这可能导致策略学习效率低下。在本文中,我们介绍了 StepAgent,它利用逐步奖励来优化代理的强化学习过程。秉承从新手到专家的理论精神,我们首先比较专家和代理的动作,以自动生成用于细粒度优化的中间奖励。此外,我们提出了隐式奖励和逆强化学习技术,以促进代理反思和策略调整。进一步的理论分析表明,代理的动作分布可以在多个训练周期内收敛到专家动作分布。跨各种数据集的实验结果表明,StepAgent 优于现有的基线方法。
生成式AI的最新进展为空间分析提供了广阔的可能性。尽管潜力巨大,但生成式AI与既有GIS平台的集成仍未得到充分探索。本研究提出了一种将大型语言模型(LLM)直接集成到现有GIS平台(以QGIS为例)的框架。我们的方法利用LLM的推理和编程能力,通过一个拥有关键GIS工具和参数全面文档的智能代理,自主生成空间分析工作流程和代码。该框架的实现产生了一个“GIS副驾驶”,允许GIS用户使用自然语言命令进行空间分析与QGIS交互。“GIS副驾驶”通过100多个空间分析任务进行了评估,这些任务分为三个复杂度级别:需要一个GIS工具且通常涉及一个数据层来执行简单操作的基本任务;涉及多步骤流程和多个工具,由用户指令引导的中间任务;以及涉及多步骤流程、需要多个工具但无需用户指令的复杂任务,需要代理独立决定并执行必要的步骤。评估结果表明,“GIS副驾驶”在自动化基础GIS操作方面展现出巨大的潜力,在基本和中间任务的工具选择和代码生成方面具有很高的成功率,而在实现更复杂任务的完全自主性方面仍然存在挑战。本研究为新兴的自主GIS愿景做出了贡献,为非专家以最少的先验知识参与地理空间分析提供了一条途径。虽然完全自主性尚未实现,“GIS副驾驶”在简化GIS工作流程和增强决策过程方面展现出巨大的潜力。
机器学习研究的一个重要目标是识别和减轻数据集固有且已融入预训练模型中的不良偏差。以往的方法使用高度精选的验证子集来识别偏差,而创建这些子集需要人类知识。这限制了自动发现新数据集中未知偏差的能力。我们通过使用可解释的视觉语言模型,结合使用大型语言模型和已知概念层次结构的过滤方法来解决这个问题。更确切地说,对于一个数据集,我们使用预训练的CLIP模型,每个类别都有一个相关的嵌入,并观察它在学习过程中是如何偏离揭示隐藏偏差的嵌入的。我们将这种方法称为ConceptDrift,并证明它可以扩展到在无需人类先验知识的情况下自动识别ImageNet等数据集中的偏差。我们提出了两种偏差识别评估协议来填补先前工作的空白,并证明我们的方法在使用我们的协议和经典评估方面都显著优于最先进的方法。在验证已识别的偏差的同时,我们还表明它们可以用来提高不同方法的性能。我们的方法不受限于单一模态,我们通过实验证明了它在图像(Waterbirds、CelebA、ImageNet)和文本数据集(CivilComments)上的有效性。
尽管在特定任务的应用方面取得了显著进展,但当前模型在深度推理、泛化能力和适应性方面仍然面临挑战——这些是II型推理的关键组成部分,对于实现人工通用智能(AGI)至关重要。尽管程序合成、语言模型和Transformer等方法具有前景,但这些方法往往无法超越其训练数据进行泛化,也难以适应新的任务,限制了它们执行类人推理的能力。本文探讨了现有方法在实现高级II型推理方面的局限性,并强调了泛化能力和适应性对于AGI的重要性。此外,我们提出了四个关键的研究方向来解决这些差距:(1) 从动作序列中学习人类意图;(2) 结合符号模型和神经模型;(3) 用于陌生环境的元学习;(4) 用于多步推理的强化学习。通过这些方向,我们旨在提高泛化和适应能力,使计算模型更接近AGI所需的推理能力。
离线强化学习 (RL) 和离线多智能体强化学习 (MARL) 的发展严重依赖于高质量的预收集离线数据集,这些数据集需要能够代表现实世界的复杂性和实际应用。然而,现有的数据集往往过于简单,缺乏真实性。为了解决这一差距,我们提出了 Hokoff,这是一个全面的预收集数据集集合,涵盖了离线 RL 和离线 MARL,并附带一个强大的框架,以促进进一步的研究。这些数据来自《王者荣耀》,这是一款广为人知的复杂多人在线战术竞技 (MOBA) 游戏,其复杂性与现实生活情况非常相似。利用此框架,我们对各种离线 RL 和离线 MARL 算法进行了基准测试。我们还引入了一种针对游戏固有分层动作空间的新型基线算法。我们揭示了当前离线 RL 方法在处理任务复杂性、泛化能力和多任务学习方面的不足。