arXiv:2502.02372v1 类型: cross
摘要:虚拟数字 avatar 的生成是计算机视觉领域的一个关键研究主题。许多现有工作利用神经辐射场(NeRF)来解决这一问题,并取得了令人印象深刻的成果。然而,这些先前的工作假设训练人员的图像可用且固定,而在现实世界中,主题的外观和姿势会不断变化和增加。如何更新人类 avatar 并同时保持渲染旧人像外观的能力是一个实际挑战。一个简单的解决方案是结合基于 NeRF 的现有虚拟 avatar 模型与连续学习方法。然而,这种方法存在一些关键问题:学习新的外观和姿势会导致模型忘记过去的信息,从而导致对过去外观渲染质量的下降,特别是在颜色外溢问题和错误的人体姿态方面。在本文中,我们提出了一种基于连续学习的神经辐射场的可维护 avatar(MaintaAvatar),通过使用全局-局部联合存储模块和姿态蒸馏模块解决了这些问题。总体而言,我们的模型只需要少量的数据收集就能快速微调模型,同时避免灾难性遗忘,从而实现了可维护的虚拟 avatar。实验结果验证了我们 MaintaAvatar 模型的有效性。
arXiv:2502.02371v1 宣传类型:交叉
摘要:准确识别可药物化位点对于基于结构的药物设计至关重要。然而,大多数位点识别算法更注重其几何特性,而忽略了下游对接性能。为了解决这一限制,我们开发了RAPID-Net,这是一种与对接工作流程无缝集成的位点寻找算法。当引导AutoDock Vina时,RAPID-Net在PoseBusters基准测试中优于DiffBindFR,并且使AlphaFold 3无法整体处理的大蛋白实现盲对接。此外,RAPID-Net在不同数据集(包括PoseBusters、Astex Diverse Set、BU48和Coach420)上,在对接准确性和位点-配体交集频率方面超过了PUResNet和Kalasanty。当评估准确性为“在集合中至少有一个正确构象”时,RAPID-Net在PoseBusters基准测试中优于AlphaFold 3,这表明我们的方法可以通过适当的构象重新加权工具进一步改进,从而为对接提供一种具有成本效益且具有竞争力的替代品,与AlphaFold 3相比。最后,通过对几个治疗上相关的示例,我们展示了RAPID-Net能够识别远程功能位点的能力,突显了其在促进创新疗法开发方面的潜力。
arXiv:2502.02368v1 类型: cross
摘要:大型语言模型(LLMs)因解决编码问题而受到关注,但它们在修复代码可维护性方面的有效性仍然不清楚。本研究评估了LLMs解决来自10个GitHub仓库的127个可维护性问题的能力。我们对Copilot Chat和Llama 3.1使用零样本提示,而仅对Llama使用少量样本提示。对由LLM生成的解决方案进行了编译错误、测试失败和新可维护性问题的评估。使用少量样本提示的Llama成功修复了44.9%的方法,而仅使用零样本提示的Copilot Chat和Llama分别修复了32.29%和30%。然而,大多数解决方案引入了错误或新的可维护性问题。我们还对45名参与者进行了人类研究,以评估51个由LLM生成的解决方案的可读性。人类研究显示,68.63%的参与者观察到改进了可读性。总的来说,虽然LLMs在修复可维护性问题方面显示出潜力,但它们引入错误的现象凸显了其当前的局限性。
arXiv:2502.02367v1 交叉公告类型:交叉领域
摘要:我们提出了一种新颖的方法——电场匹配(Electrostatic Field Matching,EFM),该方法适用于生成建模和概率分布转移任务。我们的方法受电容器物理学的启发。我们在电容器的极板上放置源分布和目标分布,并分别赋予它们正负电荷。然后,我们使用神经网络逼近器学习电容器的电场。为了将分布映射到彼此,我们从电容器的一个极板开始,沿着学习得到的电场线移动样本,直到它们到达另一个极板。我们理论上证明了这种方法可以确保实现分布转移。实际上,我们在玩具数据和图像数据实验中展示了我们EFM的性能。
arXiv:2502.02341v1 宣布类型: cross
摘要:4D 医学图像插值对于在临床应用中提高时间分辨率和诊断精度至关重要。以往的工作忽略了分布偏移的问题,导致在不同分布下的泛化能力较差。自然的解决方案是使模型适应新的测试分布,但若测试输入没有真实标签,则无法实现这一点。在本文中,我们提出了一种新的测试时训练框架,该框架使用自监督来使模型适应新的分布,而无需任何标签。实际上,在对每个测试视频执行帧插值之前,模型将使用旋转预测或图像重建等自监督任务对同一实例进行训练。我们在两个公开的4D医学图像插值数据集Cardiac和4D-Lung上进行了实验。实验结果表明,所提出的方法在两个数据集上的各种评估指标上均表现出显著的性能。它在Cardiac数据集上的峰值信噪比值为33.73dB,在4D-Lung数据集上的峰值信噪比值为34.02dB。我们的方法不仅推进了4D医学图像插值,还在图像分割和图像配准等其他领域提供了领域适应的模板。
arXiv:2502.02302v1 宣告类型: cross
摘要: 图神经网络(GNNs)在处理非欧几里得数据方面具有显著优势,并已在多个领域广泛应用,因此近年来受到了越来越多的关注。GNN模型的框架主要包含信息传播阶段和聚合阶段,分别将节点和边视为信息实体和传播通道。然而,现有的大多数GNN模型面临着节点和边特征信息之间脱节的挑战,因为这些模型通常将边和节点特征的学习视为独立的任务。为了解决这一限制,我们旨在开发一种以边为中心的图特征偏好学习框架,能够捕捉边嵌入以协助节点嵌入。通过利用学习到的多维边特征矩阵,我们构建多通道滤波器,以更有效地捕捉准确的节点特征,从而获得非局部结构特性和精细的高阶节点特征。具体来说,多维边信息的引入增强了GNN模型的功能性和灵活性,使其能够更有效地处理复杂多样的图数据。此外,在消息传递框架中集成关系表示学习可以使图节点接收到更多有用的信息,从而促进节点表示学习。最后,通过对四个真实世界的异构图进行实验,验证了所提出模型的有效性。
arXiv:2502.02290v1 威胁类型:跨领域
摘要:对抗攻击对数据驱动系统构成重大威胁,研究人员已经投入了大量资源研究它们。尽管经济上具有重要意义,但这一趋势在很大程度上忽视了信用卡欺诈检测的问题。为了解决这一缺口,我们提出了一种新的威胁模型,展示了现有攻击的局限性,并突显了需要调查新方法的必要性。然后,我们设计了一种新的对抗攻击方法,用于信用卡欺诈检测,利用强化学习来绕过分类器。这种攻击被称为FRAUD-RLA,旨在通过优化探索-利用权衡来最大化攻击者的奖励,并且比竞争对手所需的知识要少得多。我们在三个不同的异构数据集和两种欺诈检测系统上进行的实验表明,即使考虑到我们威胁模型施加的严重限制,FRAUD-RLA也是有效的。
arXiv:2502.02283v1 类别: cross
摘要: 三维高斯点绘制已经发展成为一种高效的真实感新型视图合成方法。然而,它对稀疏结构从运动(SfM)点云的依赖性始终会削弱场景重建质量。为了解决这些局限性,本文提出了一种新的三维重建框架高斯过程高斯点绘制(GP-GS),其中开发了一种多输出高斯过程模型以实现稀疏SfM点云的自适应和不确定性引导下的稠密化。具体而言,我们提出了一种动态采样和过滤流水线,通过针对输入的2D像素和深度图利用基于高斯过程的预测来推断新的候选点,从而自适应地扩展SfM点云。该流水线利用不确定性估计来指导高方差预测的修剪,确保几何一致性并 enables the generation of dense point clouds. 稠密化的点云为增强重建性能提供了高质量的初始3D高斯分布。在合成和真实世界数据集上进行的各种规模的实验验证了所提出框架的有效性和实用性。
arXiv:2502.02277v1 宣传类型: cross
摘要: 在实际世界的回归任务中,数据集通常表现出不平衡的分布特征,即在高复杂性区域数据稀缺,而在低复杂性区域数据丰富。这种不平衡对现有依赖清晰类边界的分类方法提出了重大挑战,同时也突显出专门针对不平衡回归问题的方法的缺乏。为了更好地解决这些问题,我们引入了不平衡回归这一新概念,该概念同时考虑了问题的复杂性和数据点的密度,超越了传统仅关注数据密度的定义。此外,我们提出了一种误差分布平滑(EDS)的方法来应对不平衡回归问题,该方法有效地从数据集中选择了一个有代表性的子集,减少了冗余性,同时保持了平衡性和代表性。通过多项实验,EDS展示出了其有效性,相关代码和数据集可以在 https://anonymous.4open.science/r/Error-Distribution-Smoothing-762F 获取。
arXiv:2502.02265v1 类型: 横向
摘要: 高精度控制任务给强化学习(RL)算法带来了重大挑战,经常由于网络逼近不准确和样本质量不足而导致次优性能。这些问题在任务要求代理达到精确目标状态时更为突出,这种情况在机器人技术和其他实际应用中很常见。我们引入了顾问-行为-评论家(AAC)算法,通过将反馈控制理论的精度与RL的自适应学习能力相结合,并配置了一个顾问来指导行为家改进控制动作,从而提高目标达成的精度。最后,通过基准测试,AAC 在精度关键、目标条件的任务中击败了标准的 RL 算法,展示了 AAC 的高精度、可靠性和鲁棒性。代码可在以下链接获取:https://anonymous.4open.science/r/Adviser-Actor-Critic-8AC5。