arXiv:2502.11013v2 宣传类型: replace-cross
摘要:准确预测城市时空动态对于提高城市管理与决策至关重要。现有的时空预测模型主要为确定性模型,侧重于主要的时空模式。然而,这些动态极为复杂,表现出多模态分布,这使得确定性模型难以捕捉。在本文中,我们强调了在捕捉时空数据固有的不确定性和复杂性方面概率预测的关键作用。尽管主流的概率模型可以捕捉不确定性,但它们在准确学习主要模式方面存在困难,并且往往面临计算效率低下的问题。为了解决这些挑战,我们提出了CoST,该方法结合了确定性和概率模型,以提高预测准确性并增强处理不确定性的能力。为此,我们设计了一种均值残差分解框架,均值由确定性模型建模,残差变化由特定的扩散模型(如扩散模型)学习。此外,我们引入了一种尺度感知的扩散过程,更好地考虑了不同地区间的空间异质性动态。在八个真实世界数据集上的广泛实验表明,CoST在确定性和概率性指标上均显著优于现有方法,且具有较低的计算成本,实现了20%的性能提升。CoST在确定性精度和概率不确定性之间架起了桥梁,为城市时空预测领域带来了重要的进步。
arXiv:2502.10706v2 通知类型: replace-cross
摘要:离分布(out-of-distribution, OOD)泛化已成为图学习中的一个关键挑战,因为现实世界中的图数据往往表现出传统模型难以跨环境泛化的多样化和变化的环境。解决这一问题的一个有前景的解决方案是图不变学习(graph invariant learning, GIL),其目标是通过分离标签相关不变子图和环境特定子图来学习不变表示。然而,现有的GIL方法面临两大主要挑战:(1) 图数据中多样化和变化的环境捕捉和建模的难度,以及(2) 语义悬崖,不同类别的不变子图难以区分,导致类别区分能力差且增加错误分类。为应对这些挑战,我们提出了一种名为多原型超球面不变学习(multi-prototype hyperspherical invariant learning, MPHIL)的新方法,该方法引入了两个关键创新点:(1) 超球面不变表示提取,使稳健且高度区分性的超球面不变特征提取成为可能,以及(2) 多原型超球面分类,它使用类别原型作为中间变量,以消除GIL中的显式环境建模需求并缓解语义悬崖问题。基于GIL的理论框架,我们介绍了两个新的目标函数:不变原型匹配损失,以确保样本被匹配到正确的类别原型,以及原型分离损失,以增加不同类别的原型在超球面空间的区分程度。对11个OOD泛化基准数据集的广泛实验表明,MPHIL达到了最先进的性能,显著优于现有方法,涵盖了来自不同领域的图数据和不同分布变化。
arXiv:2502.09782v3 宣告类型: replace-cross
摘要:随着日常设备中麦克风的普及和对在线服务的依赖增加,键盘遭受到声学侧信道攻击(ASCAs)的风险也逐渐增大。本研究探索了深度学习技术,尤其是视觉变换器(VTs)和大型语言模型(LLMs),以提高这些攻击的有效性和适用性。我们在此前研究的基础上取得了显著改进,CoAtNet模型实现了最先进的性能。与之前的基准相比,CoAtNet模型在通过智能手机(Phone)记录的按键记录上提升了5.0%,在通过Zoom记录的按键记录上提升了5.9%。我们还评估了变压器架构和语言模型,最好的VT模型与CoAtNet的性能相当。一个重要的进展是引入了一种用于现实场景的降噪方法。通过使用LLMs进行上下文理解,我们能够检测并纠正嘈杂环境中错误的按键记录,从而提高ASCAs的性能。此外,通过Low-Rank Adaptation(低秩适应)微调的轻量级语言模型实现了与具有67倍更多参数的大型模型相当的性能。这一VT和LLM的结合提高了ASCAs缓解的实际适用性,标志着首次将这些技术用于现实场景中的ASCAs和错误纠正。
arXiv:2502.08640v2 宣告类型:替换-交叉
摘要:随着人工智能(AI)迅速进步并变得更加自主,它们带来的风险不仅由其能力决定,也越来越受到其倾向性的影响,包括目标和价值观。追踪这些目标和价值观的出现已成为一个长期存在的问题,尽管多年来人们对此表现出极大的兴趣,但目前尚不清楚当前的AI是否具有有意义的价值观。我们提出了一种解决这一问题的方法,利用效用函数框架来研究AI偏好内部的一致性。令人惊讶的是,我们发现当前的大规模语言模型(LLMs)中独立采样的偏好表现出高度的结构一致性,并且随着规模的增大,这种一致性变得更加明显。这些发现表明,在一定的意义上,价值系统在LLMs中出现了,这是一个具有广泛意义的发现。为了研究这些涌现的价值系统,我们提出效用工程作为一种研究议程,包括分析和控制AI的效用。尽管存在现有的控制措施,我们还是在LLM助手中发现了诸多令人忧虑甚至震惊的价值观。这些包括AI将自身的价值置于人类之上,并且与特定个人是反对其特定利益的情况。为了限制这些涌现的价值系统,我们提议了效用控制的方法。作为案例研究,我们展示如何将效用与市民大会对齐以减少政治偏见,并且该方法可以推广到新场景中。无论我们是否喜欢,价值观已经在AI中涌现出来,我们仍然需要做大量工作来全面理解并控制这些涌现的表示。
arXiv:2502.08106v2 宣告类型: replace-cross
摘要:扩散模型在近几年取得了显著的进步。然而,当它们使用不平衡的数据集进行训练或微调时,其性能往往会下降。这种下降主要是由于图像-文本配对中多数类和少数类数据的不均衡表示。在本文中,我们提出了一种通用的微调方法,称为PoGDiff,以解决这一挑战。PoGDiff 不是直接最小化预测分布与真实分布之间的 KL 散度,而是用一个由原始的真实目标与条件于相邻文本嵌入的预测分布组合而成的高斯分布乘积 (PoG) 来替换真实分布。实世界数据集上的实验表明,我们的方法有效地解决了扩散模型中的不平衡问题,提高了生成的准确性和质量。
arXiv:2502.07856v3 宣告类型: replace-cross
摘要:在扩散模型的应用中,可控生成具有实际意义,但同时也极具挑战性。当前的可控生成方法主要集中在修改扩散模型的分数函数,而均值回转(MR)扩散直接修改随机微分方程(SDE)的结构,使图像条件的嵌入更加简单和自然。然而,当前的无训练快速采样器不直接适用于MR扩散。因此,MR扩散需要几百次NFE(函数评估次数)才能生成高质量的样本。在本文中,我们提出了一种新的算法MRS(MR采样器)来减少MR扩散的采样NFEs。我们求解与MR扩散相关的逆时间SDE和概率流常微分方程(PF-ODE),并导出半解析解。解由一个解析函数和一个由神经网络参数化的积分组成。基于这些解,我们可以更快地生成高质量样本。我们的方法不需要训练,并支持所有主流的参数化方式,包括噪声预测、数据预测和速度预测。广泛的实验表明,在十种不同的图像恢复任务中,MR采样器可以将采样速度提高10到20倍,同时保持高质量的样本。我们的算法加速了MR扩散的采样过程,使其在可控生成中更具实用性。
arXiv:2502.07750v2 宣告类型: replace-cross
摘要:分布式学习(DL)能够在多个设备上训练机器学习模型,但面临着非同态数据分布和设备能力差异等挑战,这些挑战可能妨碍训练效率。通信瓶颈进一步复杂化了传统的联邦学习(FL)设置。为了解决这些问题,我们引入了个性化分散选择训练(PFedDST)框架。PFedDST 通过允许设备根据综合通信评分有策略地评估和选择同伴来增强模型训练。该评分综合了损失、任务相似性和选择频率,确保最佳的同伴连接。这种选择策略旨在增加局部个性化,并促进有益的同伴合作,以增强训练过程的稳定性和效率。我们的实验表明,PFedDST 不仅提高了模型准确性,还加速了收敛。这种方法在处理数据异质性方面优于现有方法,在各种分散系统中提供更快和更有效的训练。
arXiv:2502.07213v2 宣告类型: replace-cross
摘要:本文探讨了在演进数据流中进行回归分析所面临的挑战,这一领域相较于分类而言仍然相对未被充分探索。我们提议了一种标准化的评估流程,用于流式环境下回归和预测区间任务的评估。此外,我们引入了一种创新的漂移模拟策略,能够合成各种类型的漂移,包括较少研究的增量漂移。在提议流程下进行的全面实验,验证了我们方法的有效性和鲁棒性。
arXiv:2502.07172v2 宣告类型: replace-cross
摘要: 在本文中,我们通过探索有标签数据和额外无标签数据,研究了半监督手写数学表达式识别 (HMER)。我们提出了一种新颖的一致性正则化框架,称为SemiHMER,引入了双分支半监督学习。具体来说,我们对同一输入图像施加两个网络之间的一致性约束。由一个扰动识别网络生成的伪标签被用于通过标准交叉熵损失监督另一个网络。SemiHMER一致性鼓励两个扰动网络在同一输入图像上的预测具有高相似性,并通过利用带有伪标签的无标签数据扩展训练数据。我们进一步引入了一种从弱到强的策略,通过对每个分支应用不同水平的增强,有效扩展训练数据并提高网络训练质量。此外,我们提出了一个新颖的模块,全局动态计数模块 (GDCM),通过缓解长距离公式识别中的识别不准确性和减少重复字符的出现,增强了HMER解码器的性能。实验结果表明,与我们的基线相比,我们的工作在CROHME14上实现了平均5.47%的准确率提升,在CROHME16上实现了4.87%的准确率提升,在CROHME19上实现了5.25%的准确率提升。
arXiv:2502.06924v3 宣告类型: replace-cross
摘要:状态空间模型(SSMs)已成为序列数据任务中 transformer 的有效替代方案,提供了随序列长度呈线性或接近线性可扩展性,使其成为自然语言处理、视觉和边缘AI等长序列应用的理想选择,包括实时转录、翻译和语境搜索。这些应用需要轻量级、高性能的模型,以便部署在资源受限的设备上,如笔记本电脑和平板电脑。为每种新兴的神经网络专门设计加速器代价高昂且不切实际;相反,优化现有AI PC中的NPUs可以提供一种可扩展的解决方案。为此,我们提出XAMBA,这是第一个框架,用于在商用现货(COTS)的最先进的(SOTA)NPUs上启用和优化SSMs。XAMBA采用三步方法:(1)在NPUs上启用SSMs,(2)优化性能以满足KPI要求,(3)牺牲准确性以获取额外的性能增益。在NPUs上启用SSMs后,XAMBA使用CumBA和ReduBA来缓解关键瓶颈,用基于矩阵的计算替换顺序的CumSum和ReduceSum操作,显著提高了执行速度和内存效率。此外,ActiBA通过使用分段线性映射近似昂贵的激活函数(例如,Swish,Softplus),减少延迟并仅导致微小的准确性损失,来提高性能。在Intel Core Ultra Series 2 AI PC上的评估表明,XAMBA比基线快2.6倍。我们的实现可在https://github.com/arghadippurdue/XAMBA获取。