经典的主代理问题,例如 Stackelberg 博弈、合约设计和贝叶斯劝说,通常假设代理能够对委托人的既定策略做出最佳回应。我们研究了在委托人没有承诺能力且代理使用算法学习如何回应委托人的假设下的重复广义主代理问题。我们将此问题简化为一个单次广义主代理问题,其中代理近似地做出了最佳回应。利用这种简化,我们证明了:(1) 如果代理使用具有遗憾值 $\mathrm{Reg}(T)$ 的上下文无遗憾学习算法,则委托人可以保证效用至少为 $U^* - \Theta\big(\sqrt{\tfrac{\mathrm{Reg}(T)}{T}}\big)$,其中 $U^*$ 是经典模型中具有最佳回应代理的委托人的最优效用。(2) 如果代理使用具有交换遗憾值 $\mathrm{SReg}(T)$ 的上下文无交换遗憾学习算法,则委托人无法获得超过 $U^* + O(\frac{\mathrm{SReg(T)}}{T})$ 的效用。但是 (3) 如果代理使用基于均值的学习算法(可以是无遗憾的,但不是无交换遗憾的),则委托人有时可以做得比 $U^*$ 好得多。这些结果不仅完善了 Stackelberg 博弈和合约设计中的先前结果,而且也为具有学习代理的贝叶斯劝说以及代理没有私人信息的所有广义主代理问题带来了新的结果。
近期,时间图神经网络 (TGNNs) 在欺诈检测和内容推荐等诸多高影响力应用中展现出最先进的性能。尽管 TGNNs 取得了成功,但它们容易受到现实世界动态图中普遍存在的噪声的影响,例如时间失效的链接和倾斜的交互分布。这种噪声会导致两个严重问题,显著影响 TGNNs 的准确性:(1) 模型由劣质交互进行监督;(2) 噪声输入导致聚合消息的高方差。然而,当前的 TGNN 降噪技术并没有考虑每个节点多样化和动态的噪声模式。此外,它们还遭受遍历更多邻居而导致的过多的 mini-batch 生成开销。我们认为快速准确的 TGNNs 的解决方案在于时间自适应采样。在这项工作中,我们提出了 TASER,这是第一个针对 TGNNs 的自适应采样方法,该方法针对准确性、效率和可扩展性进行了优化。TASER 基于训练动态调整其 mini-batch 选择,并基于过去交互的上下文、结构和时间属性调整时间邻居选择。为了缓解 mini-batch 生成中的瓶颈,TASER 实现了一个纯基于 GPU 的时间邻居查找器和一个专用的 GPU 特征缓存。我们使用两个最先进的骨干 TGNN 对 TASER 的性能进行了评估。在五个常用数据集上,TASER 在平均倒数排名 (MRR) 上比相应的基线平均提高了 2.3%,同时训练时间平均加快了 5.1 倍。
将强大大型语言模型(LLM)的推理能力迁移到较小的模型一直备受关注,因为小型LLM更灵活,部署成本更低。在现有解决方案中,知识蒸馏因其卓越的效率和泛化能力而脱颖而出。然而,现有方法存在一些缺点,包括知识多样性有限以及缺乏丰富的上下文信息。为了解决这些问题并促进紧凑型语言模型的学习,我们提出了TinyLLM,这是一种新的知识蒸馏范式,用于从多个大型教师LLM学习小型学生LLM。特别是,我们鼓励学生LLM不仅要生成正确的答案,还要理解这些答案背后的基本原理。鉴于不同的LLM拥有不同的推理能力,我们指导学生模型从各种教师LLM中吸收知识。我们进一步引入了一个上下文示例生成器和一个教师强制思维链策略,以确保基本原理准确且基于上下文相关的场景。在两个推理任务的六个数据集上进行的大量实验证明了我们方法的优越性。结果表明,尽管模型尺寸明显较小,但TinyLLM仍能显著优于大型教师LLM。源代码可在以下地址获取:https://github.com/YikunHan42/TinyLLM。
操作系统内核中的漏洞可能影响全球数十亿台设备和用户。因此,大量研究集中在内核模糊测试上,即自动生成系统调用(syscall)序列以检测潜在的内核漏洞或弱点。内核模糊测试旨在根据定义系统调用语法和语义的系统调用规范生成有效的系统调用序列。虽然已有工作尝试自动化系统调用规范的生成,但这在很大程度上仍然是手工工作,许多重要的系统调用仍未被发现。
本文提出KernelGPT,这是一种利用大型语言模型 (LLMs) 自动合成系统调用规范以增强内核模糊测试的首个方法。我们的关键见解是,大型语言模型在预训练期间已经学习了大量的内核代码、文档和用例,因此可以自动提取生成有效系统调用的必要信息。更具体地说,KernelGPT 利用迭代方法自动推断规范,并根据验证反馈进一步调试和修复它们。我们的结果表明,KernelGPT 可以生成更多新的有效规范,并实现比现有技术更高的覆盖率。到目前为止,通过使用新生成的规范,KernelGPT 已经在 Linux 内核中检测到 24 个新的唯一漏洞,其中 12 个已修复,11 个已分配 CVE 编号。此外,应其开发团队的要求,KernelGPT 生成的许多规范已被合并到内核模糊测试工具 Syzkaller 中。
我们研究了使用随机梯度下降 (SGD) 算法训练机器学习模型所需的收敛速度和数据样本大小,其中数据点的采样基于其损失值或不确定性值。这些训练方法与主动学习和数据子集选择问题特别相关。对于具有恒定步长更新的 SGD,我们利用平方铰链损失和类似的训练损失函数,给出了线性分类器和线性可分数据集的收敛结果。此外,我们还将分析扩展到更一般的分类器和数据集,考虑了各种基于损失的采样策略和平滑凸训练损失函数。我们提出了一种名为自适应权重采样 (AWS) 的新算法,该算法利用具有自适应步长的 SGD,在期望上实现了随机 Polyak 步长。我们为平滑凸训练损失函数建立了 AWS 的收敛速度结果。我们的数值实验通过使用精确或估计的损失值证明了 AWS 在各种数据集上的效率。
图神经网络 (GNN) 在处理类别不平衡问题时面临巨大挑战,导致推理结果存在偏差。为了解决异构图中的这个问题,我们提出了一种新颖的框架,该框架结合了图神经网络 (GNN) 和生成对抗网络 (GAN) 来增强对欠表示节点类别的分类。该框架包含一个高级的边生成和选择模块,能够通过对抗学习同时创建合成节点和边。与以往主要关注同构图的方法不同(由于难以以矩阵形式表示异构图结构),这种方法专门针对异构数据设计。现有的解决方案通常依赖于预训练模型来整合合成节点,这可能导致优化不一致和数据表示不匹配。我们的框架避免了这些缺陷,因为它生成的与固有图拓扑和属性紧密匹配的数据,从而确保更紧密的集成。对多个真实世界数据集的评估表明,该方法优于基线模型,尤其是在识别少数节点类别的任务中,性能指标(如 F 分数和 AUC-PRC 分数)均有显著提高。这些发现突出了这种方法在解决该领域关键挑战方面的潜力。
在现实世界的机器学习 (ML) 管道中,数据集不断增长。模型必须整合这些新的训练数据以提高泛化能力并适应潜在的分布变化。模型重新训练的成本与模型重新训练的频率和训练数据量成正比,这使得每次都从头开始重新训练的简单方法变得不切实际。我们提出了 Modyn,一个以数据为中心的端到端机器学习平台。Modyn 的 ML 管道抽象使⽤户能够声明式地描述在不断增长的数据集上持续训练模型的策略。Modyn 管道允许用户应用数据选择策略(以减少数据点的数量)和触发策略(以减少训练次数)。Modyn 执行并协调这些持续的 ML 训练管道。该系统是开源的,并附带基准数据集、模型和工具的生态系统。我们正式讨论了如何通过引入复合模型的概念来衡量 ML 管道的性能,从而能够公平地比较具有不同数据选择和触发策略的管道。我们通过实证分析了各种数据选择和触发策略如何影响模型精度,并且还表明 Modyn 能够实现具有样本级数据选择的⾼吞吐量训练。
基于数字地图的导航服务蓬勃发展,为驾驶员带来了极大的便利。然而,车道渲染地图图像中异常的存在偶尔会带来潜在的危险,因为这些异常可能会误导驾驶员,从而导致不安全的驾驶状况。为了准确有效地检测这些异常,本文将车道渲染图像异常检测转化为一个分类问题,并提出一个由四个阶段组成的流程:数据预处理、使用掩码图像建模 (MiM) 方法进行的自监督预训练、使用带标签平滑的交叉熵损失进行的定制微调以及后处理。该流程利用最先进的深度学习技术,特别是 Transformer 模型来解决这个问题。各种实验验证了该流程的有效性。结果表明,该流程在车道渲染图像异常检测方面表现出优越的性能,值得注意的是,使用 MiM 进行的自监督预训练可以大大提高检测精度,同时显著减少总训练时间。例如,使用均匀掩码作为自监督预训练的 Swin Transformer (Swin-Trans-UM) 达到了 94.77% 的精度和 0.9743 的曲线下面积 (AUC) 分数,而未进行预训练的纯 Swin Transformer (Swin-Trans) 精度为 94.01%,AUC 为 0.9498。微调轮数从原来的 280 轮大幅减少到 41 轮。总之,该流程结合了使用 MiM 的自监督预训练和其他先进的深度学习技术,成为提高数字导航系统中车道渲染图像异常检测的准确性和效率的强大解决方案。
随着文本到图像 (T2I) 合成模型规模的增大,其推理成本也随之提高,因为需要使用内存更大的昂贵GPU,这使得这些模型难以复现,并且限制了对训练数据集的访问。我们的研究旨在降低这些推理成本,并探索仅使用公开可用的数据集和开源模型,T2I 模型的生成能力可以扩展到什么程度。为此,我们使用事实上的标准文本到图像模型 Stable Diffusion XL (SDXL),提出了构建高效 T2I 模型的三个关键实践:(1) 知识蒸馏:我们探索如何有效地将 SDXL 的生成能力蒸馏到一个高效的 U-Net 中,并发现自注意力是最关键的部分。(2) 数据:尽管样本较少,但具有丰富标题的高分辨率图像比大量具有简短标题的低分辨率图像更重要。(3) 教师:分步蒸馏教师允许 T2I 模型减少去噪步骤。基于这些发现,我们构建了两种类型的效率更高的文本到图像模型,称为 KOALA-Turbo 和 KOALA-Lightning,它们具有两个紧凑的 U-Net (1B 和 700M),模型大小比 SDXL U-Net 分别减少了 54% 和 69%。特别是,KOALA-Lightning-700M 比 SDXL 快 4 倍,同时仍保持令人满意的生成质量。此外,与 SDXL 不同,我们的 KOALA 模型可以在具有 8GB VRAM 的消费级 GPU (3060Ti) 上生成 1024px 高分辨率图像。我们相信,我们的 KOALA 模型将产生重大的实际影响,成为资源受限环境下学术研究人员和普通用户的 SDXL 的经济高效的替代方案。
我们提出了一种高效的运动扩散模型 (EMDM),用于快速生成高质量的人体运动。当前最先进的生成式扩散模型已经取得了令人印象深刻的成果,但在不牺牲质量的情况下难以实现快速生成。一方面,以往的工作,例如运动潜在扩散,在潜在空间内进行扩散以提高效率,但学习这样的潜在空间可能是一项非平凡的工作。另一方面,通过简单地增加采样步长(例如,DDIM)来加速生成,往往会导致质量下降,因为它无法逼近复杂的去噪分布。为了解决这些问题,我们提出了EMDM,它能够在扩散模型的多个采样步骤中捕获复杂的分布,从而减少采样步骤,显著加快生成速度。这是通过一个条件去噪扩散GAN来实现的,该GAN能够捕获任意(且可能更大)步长之间以控制信号为条件的多模态数据分布,从而实现高保真度和多样性的少步运动采样。为了最大限度地减少不需要的运动伪影,在网络学习过程中施加几何损失。因此,与现有方法相比,EMDM实现了实时运动生成,并显著提高了运动扩散模型的效率,同时实现了高质量的运动生成。我们的代码将在发表后公开发布。