在强化学习 (RL) 中使用深度神经网络时,模型规模的增加往往会导致性能下降。虽然专家软混合 (SoftMoEs) 近年来在缓解在线 RL 中的这个问题方面表现出了希望,但其有效性背后的原因在很大程度上仍然未知。在这项工作中,我们提供了深入的分析,识别了推动这种性能提升的关键因素。我们发现了令人惊讶的结果,即对编码器输出进行分词,而不是使用多个专家,是 SoftMoEs 效力的关键。事实上,我们证明了即使使用适当规模的单个专家,我们也能保持性能提升,这主要归功于分词。
自主式人工智能(AI)——能够且被允许在很少监督的情况下采取复杂行动的 AI——标志着 AI 能力的新前沿,并引发了关于如何安全地创建此类系统以及如何将它们与用户、开发者和社会保持一致的新问题。由于代理的行动受其对风险的态度影响,因此对齐的一个关键方面涉及自主式 AI 的风险概况。风险对齐对于用户满意度和信任至关重要,但它也将对更广泛的社会产生重大影响,尤其是在自主式 AI 变得更加自主并被允许控制我们生活关键方面时。对风险采取鲁莽态度的 AI(无论是由于它们被校准到鲁莽的人类用户,还是设计不当)可能会构成重大威胁。它们也可能打开“责任差距”,在这种差距中,没有代理可以对有害行为负责。哪些风险态度应该指导自主式 AI 的决策?我们如何设计与用户风险态度相匹配的 AI 系统?应该对允许的风险态度范围设置哪些护栏(如果有)?在设计代表他人做出风险决策的系统时,涉及哪些伦理考虑?我们提出了三篇论文,这些论文涉及这些问题的关键规范和技术方面。
最初在博弈论中引入的 Shapley 值已成为可解释机器学习中的核心工具,用于将模型预测归因于特定输入特征。然而,精确计算 Shapley 值的成本很高:对于具有 $n$ 个特征的通用模型,需要 $O(2^n)$ 次模型评估。为了解决这个问题,广泛使用近似算法。其中最流行的一种是 Kernel SHAP 算法,该算法与模型无关,在实践中非常有效。然而,据我们所知,Kernel SHAP 没有任何强烈的非渐近复杂度保证。我们通过引入 Leverage SHAP 来解决这个问题,Leverage SHAP 是 Kernel SHAP 的轻量级修改,它仅使用 $O(n\log n)$ 次模型评估即可提供可证明准确的 Shapley 值估计。我们的方法利用了 Shapley 值估计与不可知主动学习之间的联系,通过采用杠杆得分采样,这是一种强大的回归工具。除了理论保证外,我们还表明 Leverage SHAP 始终优于甚至在普遍存在的 SHAP 库 [Lundberg & Lee, 2017] 中提供的 Kernel SHAP 的高度优化实现。
这项工作通过引入一种名为二维自回归 (DnD) Transformer 的新型模型架构,解决了矢量量化 (VQ) 自回归图像生成的信息损失瓶颈问题。DnD-Transformer 通过引入一个新的自回归方向,即“模型深度”,以及序列长度方向,为图像预测更多代码。与传统的 1D 自回归和以前使用类似 2D 图像分解(如 RQ-Transformer)的工作相比,DnD-Transformer 是一种端到端模型,可以生成更高质量的图像,而模型大小和序列长度保持不变,这为自回归图像生成开辟了新的优化视角。此外,我们的实验表明,DnD-Transformer 的潜力超越了生成自然图像。它甚至可以以自监督的方式生成包含丰富文本和图形元素的图像,展示了对这些组合模态的理解。这在流行的视觉生成模型(如扩散模型)中以前从未得到过证明,表明仅在图像上训练时就产生了视觉语言智能的火花。代码、数据集和模型已在 https://github.com/chenllliang/DnD-Transformer 上公开。
随着深度生成模型在图像和视频合成领域的显著进步,Deepfakes 和被操纵的媒体引发了严重的社会担忧。传统的用于 Deepfake 检测的机器学习分类器往往无法应对不断发展的 Deepfake 生成技术,并且容易受到对抗性攻击。作为替代方案,无形图像水印技术作为一种主动防御技术正在被研究,该技术允许通过验证嵌入图像像素中的无形秘密消息来进行媒体身份验证。为媒体身份验证而引入的少数无形图像水印技术已被证明容易受到基本图像处理操作和水印去除攻击的影响。为了应对这种情况,我们提出了一种半脆弱图像水印技术,该技术将无形秘密消息嵌入真实图像中以进行媒体身份验证。我们提出的水印框架旨在对人脸操作或篡改保持脆弱,同时对良性图像处理操作和水印去除攻击保持稳健。这得益于我们提出的技术独特架构,该架构由批评者和对抗网络组成,分别强制执行高图像质量和对水印去除努力的恢复能力,以及骨干编码器-解码器和鉴别器网络。对 SOTA 人脸 Deepfake 数据集的彻底实验研究表明,我们提出的模型可以将 64 位秘密嵌入为不可感知的图像水印,该水印可以在应用良性图像处理操作时以高位恢复精度进行恢复,而在应用看不见的 Deepfake 操作时则不可恢复。此外,我们提出的水印技术对几种白盒和黑盒水印去除攻击表现出很高的弹性。因此,获得了最先进的性能。
在使用 DevSecOps 范式的软件团队中,警报疲劳是一个常见问题。安全和代码扫描工具产生的海量警告和警报,尤其是在资源有限的小型团队中,会导致对安全警告的脱敏和响应能力下降,从而可能使系统暴露于漏洞之中。本文探讨了大型语言模型 (LLM) 在生成可操作的安全报告方面的潜力,这些报告重点强调了检测到的安全问题(例如凭据泄露)如果未解决将带来的财务影响和后果。对开发人员进行的一项调查表明,LLM 生成的报告通过提供清晰、全面和激励性的见解,显著提高了立即对安全问题采取行动的可能性。将这些报告集成到 DevSecOps 工作流程中可以缓解注意力饱和和警报疲劳,确保有效地解决关键的安全警告。
在“快速行动,打破常规”的时代,监管机构在应对人工智能(AI)部署所带来的安全、偏见和法律问题方面进展缓慢。由于像大型语言模型这样的 AI 模型能够传播错误信息并加剧社会分化,因此监管机构必须采用一种框架来减轻这些风险并确保用户安全。虽然关于如何解决最先进 AI 模型的安全、偏见和法律问题存在很多合理的讨论,但缺乏严格且现实的数学框架来规范 AI 安全。我们着手解决这一挑战,提出了一种基于拍卖的监管机制,该机制可以证明激励模型构建代理(i)部署更安全的模型,以及(ii)参与监管过程。我们通过推导的纳什均衡证明保证,每个参与代理的最佳策略是提交一个比规定的最低安全阈值更安全的模型。实证结果表明,我们的监管拍卖将安全性和参与率分别提高了 20% 和 15%,优于仅仅执行最低安全标准的简单监管框架。
文本到 SQL 技术使得非专业用户能够使用自然语言查询轻松地从关系数据库中检索所需信息。虽然最近的进展,特别是像 GPT 和 T5 这样的大型语言模型 (LLM) 的出现,在 BIRD 等大型基准测试中展现出令人印象深刻的性能,但目前最先进的 (SOTA) 基于 LLM 的文本到 SQL 模型往往需要付出大量努力来开发辅助工具,例如 SQL 分类器,才能实现高性能。本文提出了一种新方法,它只需要 SQL 质量度量来提升基于 LLM 的文本到 SQL 的性能。该方法建立了一种 SQL 质量评估机制,根据预定义的标准和实际数据库响应来评估生成的 SQL 查询。这种反馈循环使模型能够根据语法正确性和语义准确性不断学习和改进输出结果。该方法在 BIRD 基准测试上进行了全面验证,评估了不同文本到 SQL 难度级别下的执行准确率 (EX) 和有效效率评分 (VES)。实验结果表明,与 GPT4 和 T5 等 SOTA 模型相比,该方法在 EX 和 VES 方面都具有竞争力。
大规模激活在大型语言模型(LLMs)的隐藏状态的特定特征维度上表现出来,会引入显著的偏差,导致对相应词元的过度关注。本文发现,大规模激活并非源于隐藏状态,而是源于早期层中前馈网络模块的中间状态。在先前观察到的大规模激活仅发生在特定特征维度上的基础上,我们深入研究了导致大规模激活的权重。具体而言,我们将前 $k$ 个最大权重定义为对中间状态中前 $k$ 个最大幅值的维度有贡献的权重。当这些最大权重被设置为零时,LLMs 的功能会完全被破坏。然而,当除最大权重之外的所有权重都被设置为零时,即使设置了更多权重为零,性能也会下降相对较小。这意味着在预训练过程中,学习主要集中在最大权重上。基于这一观察结果,我们提出了一种简单即插即用的方法,称为 MacDrop(大规模权重课程 dropout),在参数高效微调过程中减少对最大权重的依赖。该方法对预训练的大规模权重应用 dropout,从高 dropout 概率开始,并随着微调的进行逐渐降低。通过实验,我们证明了 MacDrop 通常可以提高零样本下游任务和生成任务的性能。
低维嵌入是复杂网络建模和分析的基石。然而,大多数现有的网络嵌入空间挖掘方法依赖于计算密集型机器学习系统来促进下游任务。在自然语言处理领域,词嵌入空间以\textit{线性}方式捕获语义关系,允许使用词嵌入向量上的\textit{简单线性运算}进行信息检索。在这里,我们证明了网络数据中存在产生这种线性的结构属性。我们表明,网络表示越同质,相应的网络嵌入空间越线性可分,从而产生更好的下游分析结果。因此,我们引入了新颖的基于图元的方法,使网络能够嵌入到更线性可分的空间中,从而更好地挖掘它们。我们对网络数据结构的根本见解,使它们能够进行\textit{\textbf{线性}}挖掘和利用,使机器学习社区能够在此基础上构建,从而高效且可解释地挖掘复杂网络数据。