arXiv:2410.06530v3 通知类型: 替换-交叉
摘要: 图神经网络(GNNs)在学习关系数据方面表现出色,以一种保持图域对称性的方式处理节点和边特征。然而,许多复杂的系统——如生物网络或社会网络——涉及多向复杂的交互作用,这些交互作用更自然地由高阶拓扑域表示。新兴的高阶拓扑深度学习(TDL)领域旨在适应和利用这些高阶结构。组合复杂神经网络(CCNNs)作为相当通用的TDL模型,已被证明比GNNs更具表达能力和性能优越性。然而,与GNN生态系统不同,TDL缺乏一个严谨和标准化的框架来轻松定义新架构,限制了其可访问性和适用性。为了解决这一问题,我们引入了广义组合复杂神经网络(GCCNs),这是一种新颖但强大的TDL模型家族,可以系统地将任何(图)神经网络转换为其对应的TDL模型。我们证明了GCCNs不仅推广和完善了CCNNs,而且广泛的实验表明,这些架构在各种GCCNs中表现出一致的匹配或超越CCNNs的表现,且往往具有更少的模型复杂性。为了加速和发展TDL,我们引入了TopoTune,这是一种轻量级软件,用于以前所未有的灵活性和简便性定义、构建和训练GCCNs。
arXiv:2410.06303v2 宣告类型: replace-cross
摘要: 组合泛化是开发能够以类人方式泛化的数据高效智能机器的关键步骤。在本文中,我们处理了一种名为组合性转移的具有挑战性的分布转移形式,其中某些属性组合在训练数据中完全不存在,但在测试分布中出现。这种转移测试了模型在鉴别任务中对新型属性组合进行组合泛化的能力。我们使用灵活的可加能量分布来建模数据,其中每个能量项代表一个属性,并提出了一种替代经验风险最小化的简单方法,称为组合风险最小化(CRM)。我们首先训练一个可加能量分类器来预测多种属性,然后调整该分类器以应对组合性转移。我们提供了对CRM的广泛理论分析,在其中我们证明了我们的提议在看到的属性组合的特殊仿射包上进行外推。基准数据集上的实证评估证实了与文献中设计用于处理各种子人群转移的形式相比,CRM具有改进的鲁棒性。
arXiv:2410.05343v2 通知类型: replace-cross
摘要:错误动作检测对于开发能够检测工作者错误并提供反馈的智能档案至关重要。现有研究主要集中在自由风格活动中明显错误的检测,导致只有视频的方法。然而,在文本引导的活动中,模型在不参考文本的情况下无法判断某些动作的正确性。此外,目前的错误数据集在记录视频时很少使用操作性文本,除了烹饪领域。为填补这些空白,本文提出了EgoOops数据集,在该数据集中,第一人称视角的视频记录了遵循操作性文本时在不同领域的错误活动。该数据集包含三种类型的标注:视频与文本的对齐、错误标签和错误描述。我们还提出了一种错误检测方法,通过结合视频与文本的对齐和错误标签分类来利用文本。实验结果表明,将操作性文本纳入错误检测是必要的。数据可通过https://y-haneji.github.io/EgoOops-project-page/获取。
arXiv:2410.00535v3 信息披露类型: 替换-交叉
摘要: 为了有效地研究复杂的因果系统,经常需要通过丢弃不相关的细节同时保留关键特征来构建系统的抽象部分。信息瓶颈(IB)方法是一种广泛使用的通过压缩随机变量同时保留目标变量的预测能力来构建变量抽象的方法。传统的IB等方法是纯粹统计性的,忽略了潜在的因果结构,这使它们不适合因果任务。我们提出了一种因果信息瓶颈(CIB),它是IB的因果扩展,它压缩了一组选定的变量,同时对目标变量保持因果控制。该方法生成了因果可解释的(一组)变量的抽象,提供了关于抽象变量与目标变量之间相互作用的洞察,并且在考虑干预措施时可以使用。我们展示了实验结果,表明学习到的抽象准确地捕捉了预期的因果关系。
arXiv:2409.12964v3 宣告类型: replace-cross
摘要:下一代无线接入网络(RAN),即开放RAN(Open RAN),预计将具备适用于无线蜂窝网络(包括新兴的星地系统)的人工智能原生接口,使深度学习成为其运作的核心部分。在本文中,我们针对开放RAN中联合子载波和功率分配的非凸优化挑战进行探讨,目标是在满足用户传输数据速率要求的同时,最小化总功率消耗。我们提出了一种基于优化的深度学习模型——OpenRANet,将机器学习技术与迭代优化算法相结合。我们首先通过解耦、变量变换和松弛技术将原始的非凸问题转换为凸子问题,然后在标准干扰函数框架内使用迭代方法高效地解决这些子问题,从而推导出对偶解。这些解无缝地整合为OpenRANet中的凸优化层,通过结合机器学习与凸分析,增强了约束遵守性、解的准确性以及计算效率,正如数值实验所显示的那样。OpenRANet还为设计资源受限的人工智能原生无线优化策略提供了基础,这些策略适用于更广泛的情景,如多小区系统、星地网络以及未来复杂的功率消耗要求下开放RAN部署。
arXiv:2409.11228v2 ANNOUNCE 类型: 替换-交叉
摘要:神经音频编解码器通过高效地将连续的音频信号转换为离散的令牌,显著提升了音频压缩效果。这些编解码器能够保留高质量的声波,并通过训练在这些令牌上的生成模型实现复杂的声波生成。然而,现有的神经编解码器模型通常是在大型且未区分的音频数据集上进行训练,忽视了语音、音乐和环境声效等声域之间的重要差异。这种忽视使得数据建模复杂化,并且为声音生成的可控性增加了额外挑战。为解决这些问题,我们引入了源分离神经音频编解码器(SD-Codec),这是一种新颖的方法,结合了音频编码和源分离。通过联合学习音频再合成和分离,SD-Codec 明确地将来自不同域的音频信号分配到不同的字典码表,即一组离散表示。实验结果表明,SD-Codec 不仅保持了竞争性的再合成质量,而且根据分离结果,在潜在空间中实现了不同源的有效分离,从而增强了音频编解码器的可解释性,并可能为音频生成过程提供更精细化的控制。
arXiv:2409.05907v2 通知类型: replace-cross
摘要:大规模语言模型展示了卓越的能力,但精确控制其响应行为仍具有挑战性。现有的激活调节方法会不分情况地更改大模型的行为,限制了它们在需要选择性响应的场景中的实用性,如内容审核或特定领域的助手。在本文中,我们提出了条件激活调节(CAST),该方法在推断过程中分析大模型的激活模式,根据输入上下文选择性地应用或不应用激活调节。我们的方法基于这样一个观察:不同的提示类别会在模型的隐状态中激活不同的模式。使用CAST,可以根据规则如“如果输入涉及到仇恨言论或成人内容,则拒绝”或“如果输入与法律建议无关,则拒绝”系统地控制大模型的行为。这使得可以对特定内容进行选择性的响应修改,而对其他内容保持正常响应,而不需要进行权重优化。我们将在IBMactivation-steering上发布我们框架的开源实现。
arXiv:2409.05701v3 通知类型: replace-cross
摘要:联邦学习(FL)提供了一种分散化的方法来进行模型训练,在这种方法中,数据保持本地化,只有模型参数在客户端和中央服务器之间共享。传统方法,如联邦平均(FedAvg),通常会对模型参数进行线性聚合,这些参数通常是在异质化数据分布上训练的,这可能会忽略参数空间的复杂性和高维度特性。这可能导致聚合模型性能下降。虽然个性化联邦学习方法可以在一定程度上缓解数据异质性的问题,但线性聚合的局限性仍然存在。为了缓解这一问题,我们研究了扩散模型的生成方法,并提出了一种新颖的生成参数聚合框架,以用于个性化联邦学习,名为\texttt{pFedGPA}。在这一框架中,我们在服务器上部署了一个扩散模型,以整合多样化的参数分布,并提出了一种参数反转方法,以高效地为每个客户端生成一组个性化参数。该反转方法将上传的参数转换为潜在代码,然后通过去噪采样进行聚合,从而生成最终的个性化参数。通过使用高容量扩散模型编码客户端模型参数对其特定数据分布的依赖性,\texttt{pFedGPA}能够有效地从所有客户端模型参数的总体分布的复杂性中解耦出每个单独客户端参数分布的复杂性。我们的实验结果一致地证明了所提出方法在多个数据集上的优越性能,超越了基准方法。
arXiv:2409.02322v2 Announce Type: replace-cross
摘要:基础模型,尤其是大型语言模型(LLMs),已经革新了文本和视频处理,但时间序列数据对这类方法提出了独特的挑战,因为它们具有特定领域特征,如缺失值、多分辨率特性等。此外,事实上常用的自回归变换器倾向于在预训练数据中学习确定性的时间依赖关系,同时忽略了内在的不确定性,并缺乏物理约束的整合。在本文中,我们介绍了TimeDiT模型,这是一种将基于变换器的时间依赖学习与基于扩散的概率采样相结合的扩散变换器模型。TimeDiT采用统一的掩码机制来协调跨多种任务的训练和推理过程,同时引入了一种基于理论的、无需微调的模型编辑策略,该策略在采样过程中允许灵活地整合外部知识。鉴于将多个下游任务统一到一个模型下的挑战,我们的系统评估表明,TimeDiT不仅在基本任务,即预测和插补,以及零样本/微调下表现出有效性;而且在领域任务,即多分辨率预测、异常检测和数据生成中表现有效,将它确立为一种“原型基础模型”,填补了通用模型与领域特定模型之间的差距。
arXiv:2409.00696v3 评价类型: replace-cross
摘要: 基于评分的人类评估已成为准确评估大型语言模型(LLMs)出色表现的重要工具。然而,当前的评分系统面临一些重要限制:首先,它们未能考虑对评估结果有重大影响的偏差;其次,要获得准确的评分需要大量且昂贵的偏好数据集;再次,它们不便于不同任务之间有意义地比较模型评分。为解决这些问题,我们引入了Polyrating,这是一种基于最大后验估计的表达性和灵活性评分系统,能够以更低的成本进行更加细致和全面的模型性能分析。Polyrating 可以检测和量化影响人类偏好的偏差,确保公平的模型比较。此外,Polyrating 通过利用现有基准分数,可以将对新模型的人类评估成本降低最多 41%,对新任务则可降低最多 77%。最后,Polyrating 允许不同任务之间的直接评分比较,提供了对 LLM 强项、弱点及其在不同应用中的相对性能的全面理解。