arXiv:2501.19133v1 类型: cross
摘要:在处理高维数据时,强化学习(RL)中的信用分配效果受到深度神经网络进行表示学习成功的影响,并对深度RL算法的样本效率有重要含义。输入去相关已被引入作为一种加速神经网络优化的方法,并在高效深度学习和深度RL算法的有效表示学习方法中证明了其影响力。我们提出了一种基于去相关反向传播算法的在线去相关的新方法,该方法将去相关过程无缝地集成到RL训练管道中。在每层中添加去相关矩阵,并使用一个单独的去相关学习规则来最小化所有层的总去相关损失,在最小化通常的RL损失的同时进行。我们使用DSAC(去相关的软演员-评论家)方法对该方法进行了应用,其中DSAC是软演员-评论家(SAC)方法的变体。在Atari 100k基准测试中,与常规的SAC基线相比,DSAC在七个测试游戏中有五个游戏显示更快的训练速度,两个游戏在接近50%的墙钟时间减少的情况下提高了奖励性能,而在其他游戏上保持了相同的性能水平。这些结果表明,网络级别去相关的积极影响可以加速深度RL的样本效率,通过更有效的信用分配实现。
arXiv:2501.19128v1 奖励类型:交叉
摘要:在许多现实场景中,代理的奖励信号极为稀疏,这使得学习有效的奖励函数变得具有挑战性,特别是对于奖励塑造而言。为了解决这一问题,我们的方法不仅通过利用非零奖励转换来执行奖励塑造,还结合了半监督学习(SSL)技术以及一种新颖的数据增强方法,从大多数转换和零奖励转换中学习轨迹空间表示,从而提高奖励塑造的有效性。在Atari和机器人操作中的实验结果表明,我们的方法能够有效将奖励塑造推广到稀疏奖励场景,并且与好奇心驱动的方法相比,最高可以达到四倍的性能提升,达到更高的最佳得分。所提出的数据增强双重熵方法提高了性能,相比其他增强方法展示了15.8%的最佳得分提升。
arXiv:2501.19122v1 Announce Type: cross
摘要:联邦学习(FL)可以通过分布式客户端协同训练模型而无需共享数据,但其高计算和通信需求对资源受限的设备构成了压力。现有的方法通过定期调整稀疏模型拓扑以维持稀疏性来提高效率,但这些方法存在贪婪调整、不稳定拓扑和通信低效等问题,导致模型不够 robust 并且在数据异构性和部分客户端可用性情况下性能不佳。为了解决这些问题,我们提出了基于组合唐纳利采样的联邦 robust 剪枝(FedRTS)这一新颖框架,以开发 robust 稀疏模型。FedRTS 通过其基于唐纳利采样的调整(TSAdj)机制增强了 robust 性和性能,该机制使用由稳定且远见的信息指导的概率决策,而非依赖于不稳定且近视的信息。广泛的实验表明,FedRTS 在计算机视觉和自然语言处理任务中实现了最先进的性能,同时降低了通信成本,尤其是在数据分布异构和部分客户端参与的场景中表现出色。我们的代码可供参考:https://github.com/Little0o0/FedRTS
arXiv:2501.19114v1 论文类型: 横向
摘要: 主成分分析(PCA)是一种常用的降维和去噪工具,因此在训练神经网络之前的数据预处理中也广泛使用。然而,这种方法会增加解释可解释人工智能(XAI)方法解释模型决策的复杂性。在本文中,我们分析了这种方法的潜在问题,并提出了一种基于主成分的初始化策略(PCsInit),即通过将神经网络的第一层初始化为主成分来将PCA整合到网络的第一层,并提出了其两个变体PCsInit-Act和PCsInit-Sub。使用这些策略的解释与神经网络本身一样直接和直观,比在训练神经网络之前对主成分进行PCA预处理更为简单。此外,如实验中将展示的,这种训练策略还可以通过反向传播进一步提高训练效果。
arXiv:2501.19111v1 增量类型: cross
摘要:微表情识别在理解隐藏情绪方面起着至关重要的作用,并且在各个领域都有应用。传统的识别方法假设可以一次性访问所有训练数据,但在现实世界中,数据流是不断进化的。为了响应适应新数据的同时保留之前学习的知识的需求,我们介绍了第一个专门针对增量微表情识别的设计基准。我们的贡献包括:首先,我们为微表情识别制定了定制化的增量学习设置。其次,我们组织了一系列精心策划的学习顺序的序列数据集,以反映现实世界中的场景。第三,我们定义了两种基于交叉评估的测试协议,每种协议针对不同的评估目标。最后,我们提供了六种基线方法及其相应的评估结果。该基准为推进增量微表情识别研究奠定了基础。本研究中使用的所有代码都将在公开平台上提供。
arXiv:2501.19086v1 交叉类型:
摘要: X射线成像是医学诊断中的关键工具,提供了对各种健康状况的无创洞察。最近,视觉-语言模型,如对比语言-图像预训练(CLIP)模型,展示了通过利用大规模图像-文本数据集改进诊断准确性的潜力。然而,由于CLIP最初并非设计用于医学图像,因此开发了一些专门针对医学图像训练的类似于CLIP的模型。尽管这些模型在性能上有所提升,但关于公平性问题——特别是涉及人口统计属性的问题——仍未得到充分解决。在本研究中,我们对应用于X射线图像分类的类似于CLIP的模型进行了全面的公平性分析。我们通过零样本推理和多种微调技术(包括线性探针、多层感知机(MLP)、低秩适应(LoRA)和全面微调)对其在不同患者人口统计学和疾病类别中的性能和公平性进行了评估。结果表明,虽然微调可以提高模型准确性,但公平性问题依然存在,强调了在这些基础模型中进一步实施公平性干预措施的必要性。
arXiv:2501.19069v1 交叉发布类型: cross
摘要: 为了弥合视觉语言(VL)之间的语义差距,需要开发一个良好的对齐策略,这包括处理语义多样性、视觉信息的抽象表示以及模型的泛化能力。近期的工作使用基于检测器的边界框或具有定期分区的补丁来表示视觉语义。尽管当前的范式取得了进步,但仍不足以充分捕捉各种对象之间微妙的上下文关系。本文提出了一种综合的视觉语义表示模块,需要利用全景分割生成一致的细粒度语义特征。此外,我们提出了一种新的图尖峰神经网络(GSHN,Graph Spiking Hybrid Network),它结合了尖峰神经网络(SNNs)和图注意力网络(GATs)的优势,以编码视觉语义信息。令人感兴趣的是,该模型不仅编码实例的离散和连续潜在变量,还能够巧妙地捕捉局部和全局上下文特征,从而显著增强语义表示的丰富性和多样性。借助SNNs固有的时空特性,我们采用对比学习(CL)来增强嵌入基于相似性的表示。这种策略减轻了模型的计算负担,并通过构建正样本和负样本对增强了有意义的视觉表示。我们设计了一种创新的预训练方法——尖峰文本学习(STL,Spiked Text Learning),它使用文本特征以提高离散语义的编码能力。实验结果表明,提出的GSHN在多个VL下游任务中表现出有希望的结果。
arXiv:2501.19065v1 Announce Type: cross
摘要:时间序列预测对于气象预测和金融市场建模等众多实际应用至关重要。尽管时间域方法仍占主导地位,但频率域方法能够有效捕捉多尺度周期模式、减少序列依赖性,并自然降噪信号。然而,现有的方法通常在统一的训练目标下对所有频率的模型组件进行训练,这往往导致学习速度不匹配:高频组件收敛速度快,容易过拟合,而低频组件由于训练时间不足而欠拟合。为应对这一挑战,我们提出了一种名为BEAT(Balanced frEquency Adaptive Tuning)的新框架,该框架能够动态地监测每个频率的训练状态并自适应调整其梯度更新。通过识别每个频率的收敛、过拟合或欠拟合,BEAT动态重新分配学习优先级,对快速学习者调节梯度,并增加缓慢学习者的梯度,缓解在不同频率上相互竞争的目标间的紧张关系,并同步整体学习过程。在七个真实世界的数据集上进行的大量实验表明,BEAT在所有方法中表现最佳。
arXiv:2501.19056v1 自动化类型: 横向交叉领域
摘要:现代软件系统日益复杂,这需要强大的自主自我管理能力。尽管大型语言模型(LLMs)在这一领域显示出潜力,但在适应特定服务上下文方面仍然面临挑战。为了解决这一限制,我们提出了ServiceOdyssey,这是一种自学习代理系统,能够自主管理微服务,无需先了解特定服务的配置。通过利用分阶段学习原则和迭代探索,ServiceOdyssey逐步发展对运营环境的深刻理解,减少了对人工输入或静态文档的依赖。使用Sock Shop微服务构建的原型展示了这种方法在自主微服务管理方面的潜力。
arXiv:2501.19055v1 宣告类型: cross
摘要: 本文通过提出一种新颖的范式,增加了医疗保健领域强化学习(RL)的研究文献:任何预测模型都可以增广一个基于规则的RL层(RRLL),以纠正模型的生理上不可能的预测。具体而言,RRLL 将预测状态标签作为输入,并输出修正后的标签作为动作。状态-动作对的奖励由一组通用规则评估。RRLL 是高效的、通用的并且轻量级的:它不需要像先前工作那样要求大量的专家知识,只需要一组不可能的过渡。这套规则的数量远少于所有可能的过渡;然而,它能够有效地减少最先进的预测模型所犯的生理上不可能的错误。我们对各种重要的医疗保健分类问题验证了RRLL 的实用性,并在相同的设置下观察到显著的改进,只需改变特定领域的不可能性集合。深入分析表明,RRLL 确实通过有效减少生理上不可能的预测提高了准确性。