LLM2D

arXiv 论文列表

作者: Thomas Jiralerspong, Berton Earnshaw, Jason Hartford, Yoshua Bengio, Luca Scimeca
arXiv:2502.10236v1 通告类型: cross 摘要:扩散概率模型(DPMs)是强大的生成模型,在多种生成任务中取得了无与伦比的成功。本文的目标是在训练和采样扩散模型时构建归纳偏置,以便更好地适应数据的目标分布。对于拓扑结构化数据,我们设计了一个基于频率的噪扰操作,以故意操纵和设定这些归纳偏置。我们首先表明,对噪扰前向过程进行适当的操纵可以使DPMs专注于分布的某些方面进行学习。我们展示了不同数据集需要不同的归纳偏置,并且适当的基于频率的噪声控制相比标准扩散能够提高生成性能。最后,我们展示了忽略特定频率信息的可能性,同时进行学习。我们在图像篡改和恢复任务中展示了这一点,其中我们训练了一个DPM,在严重噪声篡改后恢复原始目标分布。
发布时间: 2/17/2025
查看原文
作者: Redha Taguelmimt, Samir Aknine, Djamila Boukredera, Narayan Changder, Tuomas Sandholm
arXiv:2502.10226v1 共同体结构生成类型:跨领域 摘要:共同体结构生成(CSG),即优化地将一组代理分配到共同体中以最大化社会福利的问题,是多智能体系统中一个基本的计算问题。该问题在需要较短运行时间的应用中非常重要,包括交通和灾害响应。在本文中,我们开发了SALDAE,这是一种用于CSG的多智能体路径搜索算法,可在共同体结构图上运行。该算法利用多种启发式方法和策略来进行搜索并指导搜索过程。它是一种即席算法,可以处理数百乃至数千个代理的大规模问题。我们在包括灾害响应和电动汽车分配标准价值分布在内的九个标准基准上进行了实验,证明我们的算法能够快速找到高质量的解决方案,并且与当前最佳方法相比具有优势。
发布时间: 2/17/2025
查看原文
作者: Dong Wang, Haris \v{S}iki\'c, Lothar Thiele, Olga Saukh
arXiv:2502.10216v1 类别:交叉学科 摘要:我们提出了模型折叠,这是一种新型的数据免费模型压缩技术,它通过在层间合并结构相似的神经元,显著减少了模型的大小,而无需进行微调或访问训练数据。与现有方法不同,模型折叠在压缩过程中利用了k-means聚类技术保留数据统计信息,并使用新颖的数据免费技术防止方差崩溃或膨胀。我们理论框架和在标准基准上的实验,包括ResNet18和LLaMA-7B,表明模型折叠达到了与数据驱动压缩技术相当的性能,并且在高稀疏性水平上优于最近提出的几种数据免费方法。这种方法特别适用于压缩大型模型,使其在资源受限的环境中具有部署优势。
发布时间: 2/17/2025
查看原文
作者: Beatrix M. G. Nielsen, Iuri Macocco, Marco Baroni
arXiv:2502.10201v1 类型: cross 摘要: 集聚性(hubness),即少数点往往是大量其他点的最近邻的倾向,在应用标准距离度量到高维数据时通常会出现,常常对基于距离的分析产生负面影响。由于自回归大型语言模型(LLMs)处理高维表示,我们询问它们是否也受到集聚性的影响。首先,我们从理论上证明,LLMs 执行的唯一表示比较操作,即在确定续写概率时,在上下文向量和未嵌入向量之间进行的比较,不是导致干扰集聚性通常出现的距离集中现象的特征。然后,我们通过实验证明,这种比较仍然会导致高程度的集聚性,但在这种情况下,集聚点并不构成干扰。它们实际上是上下文调节频繁出现的词语在预测下一个词语时候选池中经常出现的结果。另一方面,当对包含LLMs 表示的距离计算进行其他操作时,我们没有同样的理论保证,确实,我们看到了干扰集聚点的出现。综上,我们的工作一方面强调了虽然高维空间中集聚性普遍存在,但其并非总是一个需要减轻的负面属性,另一方面展示了各种广泛使用的大型语言模型已发展出一种猜疑策略,即不断为高频词语分配高概率。
发布时间: 2/17/2025
查看原文
作者: Katsunari Shibata
arXiv:2502.10200v1 宣布类型: crossbench 摘要: 本文提出的动态强化学习(Dynamic RL)直接控制系统动力学,而不是每个时刻的行为者(动作生成神经网络)的输出,从而在强化学习(RL)中带来了从静态到动态的重大质的转变。行为者最初设计为通过与其环境的循环生成混沌动力学,从而使代理能够进行灵活且确定性的探索。动态 RL 使用一个称为“敏感性”的局部索引来控制全局系统动力学,该索引表示每个神经元处理后输入邻域如何收缩或扩展到相应的输出邻域。同时,Sensitivity 调整学习(SAL)防止动态过度收敛,而 Sensitivity 控制的强化学习(SRL)则调整它们 —— 以更有利于再出现、具有正 TD 错误的良好状态转换趋向收敛,以增强探索、具有负 TD 错误的较差转换趋向发散。动态 RL 仅在 Actor-Critic RL 架构中的行为者上应用,将其应用于评论者仍然是一个挑战。它已在两个动态任务上进行了测试,并在没有外部探索噪声或时间逆向计算的情况下有效运行。此外,它在新环境中表现出卓越的适应性,尽管仍存在一些问题。作者将“探索”与“思考”类比,假设“探索通过学习成长为思考”,并认为这种 RL 或许是思考出现的关键技巧,包括从大量现有文本数据无法重建的灵感。最后,尽管作者认为这项研究存在潜在致命风险而不敢推进,但其目的是引发讨论。
发布时间: 2/17/2025
查看原文
作者: Myungseo Song, Jin-Woo Park, Jong-Seok Lee
arXiv:2502.10195v1 类别: cross 摘要: 我们 empirically 探讨了人员再识别(ReID)模型的相机偏差。此前,已提出相机感知方法来解决这一问题,但这些方法主要局限于模型的训练领域。我们在未见过的领域中测量了 ReID 模型的相机偏差,并揭示出在数据分布变化时,相机偏差变得更加显著。作为一种针对未见过领域数据的去偏差方法,我们重新审视了嵌入向量的特征规范化。虽然该规范化方法被用作一种直接的解决方案,但其背后的原理及其更广泛的适用性尚未被探索。我们分析了为什么这种简单的解决方案能够有效减少偏差,并表明它还可以应用于低级图像属性和人体角度等细粒度的偏差因素。此外,我们验证了该方法在不同模型和基准上的普适性,突显了其作为 ReID 的简单且有效的测试时后处理方法的潜力。此外,我们探讨了 ReID 模型无监督学习中的固有相机偏差风险。即使是有监督数据,无监督模型对其相机标签的偏差仍然非常高,表明有很大的改进空间。基于相机偏差伪标签对训练负面影响的观察结果,我们提出了一些简单训练策略来缓解这一偏差。通过将这些策略应用于现有的无监督学习算法,我们展示了即使进行少量修改也能实现显著性能提升。
发布时间: 2/17/2025
查看原文
作者: Madison Landry, Nabeel Gillani
arXiv:2502.10193v1 宣布类型: 多种 摘要: 多元化的学校有助于解决隐性偏见,增加同理心、相互尊重和反思性思维,通过促进来自不同种族/ Ethnic、经济和社会背景的学生之间的联系。不幸的是,尽管联邦立法正式禁止按种族隔离已有超过70年的时间,但美国公立学校的种族/ Ethnic隔离现象依然普遍存在。然而,改变学生如何分配到学校可以有助于培养更整合的学习环境。在这篇论文中,我们探讨了“学校合并”作为一种尚未充分探索但前途光明的学生分配政策改变。学校合并涉及合并学校的学区界限,或者捕获区域,并且随后改变每所学校提供的年级。我们开发了一个算法来模拟200个大型学区的学校合并,这些学区服务着450万名小学学生,发现以这种方式配对或合并学校可以将种族/ Ethnic隔离的中位相对减少20%——在一些学区,降幅甚至可达到近60%,同时平均每个方向增加几分钟的通勤时间。许多种族/ Ethnic差异较大的邻里的接壤区域较多的学区更适合作合并。我们还将学校合并的预期结果与如重新划分学区等其他典型的整合政策进行了比较,发现不同的政策在不同的地方可能更为合适。最后,我们通过一个公开的仪表板为政策制定者和社会成员提供我们的研究结果,以进一步探索(https://mergers.schooldiversity.org)。总的来说,我们的研究提供了关于美国公立学区整合政策制定的新发现和工具。
发布时间: 2/17/2025
查看原文
作者: Marco Bondaschi, Nived Rajaraman, Xiuying Wei, Kannan Ramchandran, Razvan Pascanu, Caglar Gulcehre, Michael Gastpar, Ashok Vardhan Makkuva
arXiv:2502.10178v1 宣告类型: cross 摘要: 虽然基于变压器的语言模型已经推动了AI革命,但它们的计算复杂性激起了对可行替代方案的兴趣,如结构化状态空间序列模型(SSMs)和选择性SSMs。在这类模型中,Mamba (S6)及其变体Mamba-2在保持与变压器相当甚至更好的复杂语言建模任务性能的同时,展示了显著的推理速度提升。然而,尽管这些架构创新和实践经验,Mamba的基本学习能力仍尚未充分理解。在本文中,我们通过研究马尔可夫链的上下文学习(ICL)来解决这一问题,并揭示了一个令人惊讶的现象:与变压器不同,即使是单层Mamba也能有效地学习上下文马尔可夫链的最优拉普拉斯平滑估计器,这是一种既是贝叶斯也是最小最大最优的估计器,适用于所有马尔可夫链顺序。为了解释这一点,我们从理论上表征了Mamba的表示能力,并揭示了卷积在其能够表示最优拉普拉斯平滑过程中的基本作用。这些理论洞察与实验结果高度一致,并且据我们所知,它们代表了Mamba和最优统计估计器之间的首次正式联系。最后,我们概述了由这些发现启发的有前途的研究方向。
发布时间: 2/17/2025
查看原文
作者: Heramb Podar, Alycia Colijn
arXiv:2502.10174v1 宣言类型:交叉 摘要:致命自主武器系统(LAWS)的自主性和适应性承诺带来前所未有的操作能力,但也引入了深刻的风险,挑战国际安全中的控制、问责和稳定性原则。本报告概述了LAWS部署相关的关键技术风险,强调了其不可预测性、不透明性和操作不可靠性,可能导致严重且意外的后果。 主要观点: 1. 提出的LAWS优势需要通过对象化和分类实现,但一系列系统性风险限制了分类算法的可靠性和可预测性。 2. 这些系统性风险包括AI决策的黑箱性质、易受奖励作弊的影响、目标误解概括以及可能出现脱离人类控制的新兴行为。 3. LAWS可能以既不可预测也无法控制的方式行动,损害任务目标,甚至可能加剧冲突。 4. 即使经过严格测试的系统在现实世界条件下也可能表现出不可预测和有害的行为,威胁战略稳定性和人道主义原则。
发布时间: 2/17/2025
查看原文
作者: Lei Cheng, Junpeng Zhang, Qihan Ren, Quanshi Zhang
arXiv:2502.10162v1 交叉类型公告 摘要:本文旨在从交互的角度分析深度神经网络(DNN)的泛化能力。不同于之前对DNN在高维度特征空间中的泛化能力进行的分析,我们发现DNN的泛化能力可以解释为交互的泛化能力。我们发现可泛化的交互遵循衰减型分布,而非泛化的交互遵循纺锤型分布。此外,我们的理论能够有效分离DNN中的这两种类型的交互。我们的实验验证了该理论能够很好地匹配DNN中的实际交互。
发布时间: 2/17/2025
查看原文