LLM2D

arXiv 论文列表

作者: Taeyeop Lee, Bowen Wen, Minjun Kang, Gyuree Kang, In So Kweon, Kuk-Jin Yoon
arXiv:2503.18673v1 Announce Type: cross 摘要: 我们引入了Any6D,这是一种无需模型的框架,仅需单一RGB-D锚点图像即可估计新场景中未知对象的6D姿态和大小。与依赖于纹理化3D模型或多个视角的现有方法不同,Any6D利用联合对象对齐过程来增强2D-3D对齐和度量尺度估计,从而提高姿态精度。我们的方法整合了一种渲染和比较策略以生成和细化姿态假设,使得在有遮挡、不重叠视角、多种光照条件和跨环境变化较大的情况下仍能实现稳健性能。我们在五个具有挑战性的数据集上评估了我们的方法:REAL275、Toyota-Light、HO3D、YCBINEOAT 和 LM-O,展示了其在新型对象姿态估计方面显著优于现有最佳方法的效果。项目页面: https://taeyeop.com/any6d
发布时间: 3/25/2025
查看原文
作者: Arne Grobr\"ugge, Niklas K\"uhl, Gerhard Satzger, Philipp Spitzer
arXiv:2503.18629v1 宣布类型: cross 摘要:基于概念的可解释人工智能(C-XAI)旨在通过将像素转换为整个数据集内一致的人类可理解概念,来克服传统显著性图的限制。C-XAI的关键方面是完备性,它衡量一组概念解释模型决策的能力。在C-XAI方法中,多维概念发现(MCD)通过将CNN潜在空间分解为独立且可解释的概念子空间,有效地提高了完备性。然而,MCD的解释对于人类来说可能难以理解,引发了对其实际应用价值的担忧。为了解决这一问题,我们提出了可理解的多维概念发现(HU-MCD)。HU-MCD使用分割一切模型(Segment Anything Model)进行概念识别,并实施了一种特定于CNN的输入蒙版技术,以减少传统蒙版方法引入的噪声。将这些对MCD的改进与完备性关系结合起来,使HU-MCD能够增强概念的理解性,同时保持解释的真实性。我们的实验,包括人类被试研究,表明HU-MCD提供的解释比现有的C-XAI方法更精确、更可靠。代码可在 https://github.com/grobruegge/hu-mcd 获取。
发布时间: 3/25/2025
查看原文
作者: Bing Cao, Baoshuo Cai, Changqing Zhang, Qinghua Hu
arXiv:2503.18627v1 交叉类型:图像融合 摘要:图像融合通过多源图像整合互补信息以生成更具有信息量的结果。最近,展示出了前所未有的生成潜力的扩散模型被探索应用于图像融合。然而,这些方法通常将预设的多模态指导引入扩散模型中,这未能捕捉每个模态动态变化的重要性,同时缺乏理论保证。为了解决这一问题,我们揭示了图像去噪中的时空失衡;具体来说,在去噪步骤中,扩散模型在不同的图像区域产生了动态的信息增益。基于这一观察,我们深入探讨了扩散信息增益(Dig2DIG),并在此基础上理论推导出一种证明能降低一般化误差上界的动力学图像融合框架。因此,我们引入了扩散信息增益(DIG)来量化各模态在不同去噪步中的信息贡献,从而在融合过程中提供动态指导。在多个融合场景下的广泛实验证实,我们的方法在融合质量和推理效率方面均优于现有的基于扩散的方法。
发布时间: 3/25/2025
查看原文
arXiv:2503.18612v1 类型: cross 摘要:深度强化学习的近期进展在学习复杂的先前无法解决的问题方面非常成功。然而,样本效率和局部最优仍然是重要的挑战。为了应对这些挑战,基于新颖性驱动的探索策略已经出现并显示出巨大的潜力。不幸的是,在所有任务上,没有任何单一算法能超越其他算法的表现,并且大多数算法在高维度和复杂观察的任务上表现挣扎。在这项工作中,我们提出了一种基于双向生成对抗网络(BiGAN)的新颖性驱动探索算法Adventurer,其中BiGAN被训练以估计状态的新颖性。直观地说,已经在访问状态的分布上进行训练的生成器只能生成来自访问状态分布的状态。因此,使用生成器从某些潜在表示重构输入状态会产生更大的重构误差。我们展示了BiGAN在估计复杂观察的状态新颖性方面表现出色。这种新颖性估计方法可以与基于内在奖励的探索结合使用。我们的实验结果显示,Adventurer在包括连续机器人操作任务(例如Mujoco机器人)和高维度图像基任务(例如Atari游戏)的一系列流行的基准任务上产生了具有竞争力的结果。
发布时间: 3/25/2025
查看原文
arXiv:2503.18607v1 公告类型:交叉 摘要:在非稳态环境中进行强化学习极具挑战性,因为动态往往会出现突然且不可预测的变化,这常常导致传统的算法无法收敛。然而,在许多实际情况下,非稳态性具有可以被利用的结构,这有助于开发算法并简化理论分析。我们引入了一种这样的结构——切换非稳态马尔可夫决策过程(SNS-MDP),即环境会基于一个内部马尔可夫链的变化而切换。在固定策略下,SNS-MDP的价值函数由马尔可夫链的统计特性确定,尽管存在固有的非稳态性,时差学习方法(TD学习方法)仍然可以收敛到正确的价值函数。此外,可以进行策略改进,并且展示了策略迭代可以收敛到最优策略。而且,由于Q学习可以收敛到最优Q函数,因此它同样会导出相应的最优策略。为了说明SNS-MDP的实际优势,我们提供了一个通信网络中的示例,其中信道噪声遵循马尔可夫模式,展示了这种框架如何有效地指导复杂、时间变化的环境中做出决策。
发布时间: 3/25/2025
查看原文
作者: Chengxiang Huang, Yake Wei, Zequn Yang, Di Hu
arXiv:2503.18595v1 类型: cross 摘要: 在早年对感觉进行训练对于人类发展至关重要。受这一认知现象的启发,我们观察到,在多模态学习过程中,早训练阶段也非常重要,此时数据集信息被迅速获取。我们将这一阶段称为关键学习窗口。然而,根据我们的观察,多模态学习中的关键学习窗口往往会由信息充足模态的信息所主导,从而抑制了信息不足模态的信息获取。为了解决这一问题,我们提出了一种名为信息获取调节(InfoReg)的方法,该方法旨在平衡各模态的信息获取。具体来说,InfoReg在关键学习窗口中减缓了信息充足模态的信息获取过程,这可能会促进信息不足模态的信息获取。这种调节有助于更平衡的学习过程,并提高多模态网络的总体性能。实验表明,InfoReg在各种数据集上优于相关多模态不平衡方法,实现了更好的模型性能。代码可在 https://github.com/GeWu-Lab/InfoReg_CVPR2025 获取。
发布时间: 3/25/2025
查看原文
作者: Guillem Garc\'ia Subies, \'Alvaro Barbero Jim\'enez, Paloma Mart\'inez Fern\'andez
arXiv:2503.18594v1 交叉公告类型 摘要:我们通过引入最大的公开可用临床语料库 ClinText-SP 及其最先进的临床编码语言模型 RigoBERTa Clinical,为西班牙临床自然语言处理领域做出了新的贡献。我们的语料库严格挑选自多种开放源,包括医学期刊中的临床案例和共享任务中的标注语料库,提供了之前难以获取的丰富多样的数据集。RigoBERTa Clinical 通过在这个全面的数据集上进行领域适应性预训练而开发,其在多个临床 NLP 基准测试中显著优于现有模型。通过公开发布数据集和模型,我们旨在为研究社区提供强有力的资源,从而推动临床 NLP 领域的进一步发展,并最终促进健康应用的改进。
发布时间: 3/25/2025
查看原文
作者: Tianyu Chen, Xingcheng Fu, Yisen Gao, Haodong Qian, Yuecen Wei, Kun Yan, Haoyi Zhou, Jianxin Li
arXiv:2503.18578v1 交叉公告类型:cross 摘要:现代视觉-语言模型(VLMs)最初在向量空间中发展了补丁嵌入和卷积骨干,尤其是欧几里得空间。当将VLMs扩展到星系规模以理解天文现象时,对行星轨道的球形空间集成和对黑洞的双曲空间集成提出了两大挑战。a) 当前的预训练模型仅局限于欧几里得空间,而不是一个全面的几何嵌入。b) 主导的架构缺乏适合各向异性物理几何的合适骨干网络。本文中,我们引入了Galaxy-Walker,一种具有几何意识的VLM,用于宇宙级别的视觉理解任务。我们提出了几何提示,通过在多尺度物理图上跨不同类型的空间进行随机漫步生成几何标记,以及几何适配器,以专家系统的混合方式压缩和重塑空间各向异性。广泛的经验表明了我们方法的有效性,Galaxy-Walker在星系属性估计($R^2$分数高达$0.91$)和形态分类任务(在具有挑战性的特征上+$0.17$的F1提高)中均实现了最先进的性能,显著优于专门领域模型和通用VLM。
发布时间: 3/25/2025
查看原文
作者: Prathyush Sambaturu, Bernardo Gutierrez, Moritz U. G. Kraemer
arXiv:2503.18572v1 移动性类型:跨领域 摘要:理解人类流动性对于从城市规划到公共卫生等众多应用都至关重要。传统的流动性模型,如流网络和共定位矩阵,只能捕捉离散位置之间的成对交互,而忽略了位置之间的高级关系(即,两个或多个位置之间的流动性流动)。为了解决这一问题,我们提出了联合访问超图这一模型,该模型利用时间观察窗口从个体流动性轨迹数据中提取位置之间的群体交互。通过频繁模式挖掘,我们的方法构建了能够捕捉不同空间和时间尺度下动态流动性行为的超图。我们在一个公开可用的流动性数据集上验证了我们的方法,并展示了其在分析城市规模的流动性模式、检测外部中断(如极端天气事件)期间的模式转移以及研究一个位置的连通性(度)与其内部兴趣点(POI)数量之间的关系方面的有效性。我们的结果表明,基于超图的流动性分析框架是多领域的一个有 valuable 的工具,具有潜在的应用价值,如公共卫生、灾害抗御和城市规划等领域。
发布时间: 3/25/2025
查看原文
作者: Hadi Mohammadi, Ehsan Nazerfard, Mostafa Haghir Chehreghani
arXiv:2503.18569v1 类别: cross 摘要: 不平衡数据表示一类(多数类)频率高于另一类(少数类)的一种分布。这种现象在各个领域中都存在,如安全、医疗护理和人类活动等领域。在不平衡学习中,分类算法通常倾向于准确分类多数类,导致人为提高准确率。因此,许多少数类样本被误标为多数类实例,从而产生偏向多数类的偏差。本文提出了一种基于边界锚样本的框架来应对不平衡学习的挑战。首先,我们选择并使用锚样本训练一个多层感知器(MLP)分类器,该分类器作为先验知识模型,并辅助对抗学习和对比学习过程。然后,我们设计了一个新的深度生成模型,称为锚稳定条件生成对抗网络或简称Anch-SCGAN。Anch-SCGAN配备了两个生成器,分别用于少数类和多数类,以及一个包含预训练特征提取器MLP的附加类特定信息的判别器。此外,我们通过两种方式来促进生成器的训练过程。首先,我们定义了一个基于重新处理锚样本和对比学习的新生成器损失函数。其次,我们应用了一种评分策略来稳定生成器中的对抗训练部分。我们在训练Anch-SCGAN时进一步使用了锚样本来提高生成样本的精度。对我们进行的16个真实世界的不平衡数据集实验表明,Anch-SCGAN在不平衡学习方面优于知名方法。
发布时间: 3/25/2025
查看原文