arXiv:2503.15818v2 宣告类型: replace-cross
摘要:3D点云已在自动驾驶汽车、机器人技术、CAD模型等领域得到了广泛应用。据我们所知,这些应用在3D点云中引发了隐私泄露的问题,但尚未得到充分研究。与与纹理和二维几何结构相关的二维图像隐私不同,3D点云没有纹理,只与三维几何结构相关。在本文中,我们定义了3D点云的隐私问题,并提出了一种高效的数据保护框架PointFlowGMM,该框架能够在不查看原始数据的情况下支持下游分类和分割任务。通过基于流的生成模型,点云被投影到一个潜在的高斯混合分布子空间中。我们进一步设计了一种新颖的角度相似性损失,以模糊原始几何结构并使模型大小从767MB减少到120MB,同时保持识别性能。在潜在空间中随机旋转投影的点云以进一步保护原始几何结构,在旋转后类间关系得以保留,因此保护的点云可以支持识别任务。我们在多个数据集上评估了我们的模型,并在加密点云的识别结果上达到了与原始点云可比的识别性能。
arXiv:2503.15550v2 通知类型: replace-cross
摘要:联邦学习(FL)作为一种有前途的分布式机器学习范式已经浮现出来,它能够实现协作模型训练同时保护数据隐私。然而,尽管FL有许多优势,它仍然面临着一些重大挑战,尤其是有关安全和信任的问题。零知识证明(ZKPs)提供了一种潜在的解决方案,通过在整个FL过程中建立信任和增强系统完整性。尽管已有许多研究探索基于ZKP的FL(ZK-FL),但系统性的框架和全面的分析仍然缺乏。本文做出了两个关键贡献。首先,我们提出了一种结构化的ZK-FL框架,该框架对ZKPs在不同FL阶段和任务中的技术作用进行了分类和分析。其次,我们引入了一种新的算法Verifiable Client Selection FL(Veri-CS-FL),该算法利用ZKPs对客户端选择过程进行优化。在Veri-CS-FL中,参与的客户端为其本地模型生成可验证的证明并提交这些简要证明给服务器以进行高效的验证。然后,服务器选择具有良好本地模型的客户端进行上传,并随后聚合这些选定客户端的贡献。通过整合ZKPs,Veri-CS-FL不仅确保了性能指标的准确性,还增强了参与者之间的信任,同时提高了FL系统的整体效率和安全性。
arXiv:2503.15426v2 公告类型: 替换交叉提交
摘要:尽管多模态大型语言模型(MLLMs)在各种图像相关任务中表现出色,但在精确对齐坐标与图像中的空间信息方面仍面临挑战,特别是在视觉定位等位置感知任务中尤为明显。这种限制主要是由两个关键因素引起的。首先,MLLMs 缺乏显式的空间参考,使得难以将文本描述与精确的图像位置关联起来。其次,它们的特征提取过程更注重全局上下文而非精细的空间细节,导致其局部化能力较弱。为了应对这一问题,我们引入了 VPP-LLaVA,这是一种配备视觉位置提示(VPP)的 MLLM,以提高其视觉定位能力。VPP-LLaVA 结合了两种互补机制。全局 VPP 将可学习的轴向嵌入叠加到输入图像上,提供结构化空间线索。局部 VPP 通过结合位置感知查询专注于精细定位,这些查询建议可能的物体位置。我们还引入了一个包含 60 万样本的 VPP-SFT 数据集,将高质量的视觉定位数据压缩成紧凑格式,以提高模型训练效率。使用该数据集和 VPP 训练模型可增强其性能,在标准视觉定位基准测试中达到最佳结果,尽管相比 MiniGPT-v2 等其他 MLLMs(需要大量数据集,约为 210 万样本),使用的训练样本数量更少。接受后,代码和 VPP-SFT 数据集将可在 https://github.com/WayneTomas/VPP-LLaVA 获取。
arXiv:2503.14858v2 宣告类型: replace-cross
摘要:自我监督学习的扩展已经在语言和视觉领域取得了突破,但在强化学习(RL)中取得相似的进展仍是一件棘手的事情。在本文中,我们研究了解锁自我监督RL中显著扩展能力的基本组件,其中网络深度成为关键因素。尽管近年来大多数RL论文依赖于浅层结构(约2-5层),我们证明将深度增加到1024层可以显著提升性能。我们的实验是在一个无监督的目标调节环境进行的,其中没有提供任何演示或奖励,因此智能体必须从头开始探索并学习如何最大化达到指定目标的概率。在模拟行动和操作任务上评估,我们的方法将性能提升了2倍至50倍。增加模型深度不仅提高了成功率,还定量地改变了所学习的行为。
arXiv:2503.13999v2 Announce Type: replace-cross
摘要:BI_RADS评分是一种概率报告工具,放射科医生使用它根据乳腺X光摄影图像中的某些形态学特征来表达预测乳腺癌的可能性水平。由于对肿块的描述存在显著差异,有时会导致BI_RADS分类错误。使用BI_RADS预测系统是支持最终放射科医生决策的必要手段。在这项研究中,利用贝叶斯深度学习模型提取的不确定性信息来预测BI_RADS评分。基于病理信息的研究结果表明,放射科医生的预测f1分数分别为42.86%、48.33%和48.28%,而模型性能的f1分数分别为73.33%、59.60%和59.26%,分别针对BI_RADS 2、3和5数据集样本。此外,该模型在使用数据集中的BI_RADS 0类别中将恶性样本与良性样本区分开来,准确率为75.86%,并且正确识别了所有恶性样本为BI_RADS 5。Grad-CAM可视化显示,该模型关注病灶的形态学特征。因此,这项研究表明,具有感知不确定性的贝叶斯深度学习模型可以根据形态学特征报告其对病灶恶性的不确定程度,就像放射科医生一样。
arXiv:2503.13558v3 宣传类型: replace-cross
摘要:锂离子电池的剩余使用寿命(RUL)的准确预测对于增强能量存储系统的可靠性和寿命至关重要。传统方法在进行RUL预测时常常面临数据稀疏性、电池化学多样性以及难以捕捉随时间变化的复杂退化模式等问题。在这项研究中,我们提出了一种基于生存分析的框架结合深度学习模型来预测锂离子电池的RUL。具体而言,我们利用了五种先进模型:Cox类型模型(Cox、CoxPH和CoxTime)以及两种基于机器学习的模型(DeepHit和MTLR)。这些模型通过将原始时间序列电池数据转换为生存数据,包括电压、电流和内阻等关键退化指标,解决了准确RUL估计的挑战。先进的特征提取技术增强了模型在各种实际场景中的鲁棒性,包括不同的充电条件和电池化学组成。我们的模型通过10折交叉验证进行测试,确保了泛化能力和最小化过度拟合。实验结果表明,我们基于生存分析的框架显著提高了RUL预测的准确性,提供了一种可靠的电池管理和维护优化工具。这项研究为电池技术中的预测性维护的发展做出了贡献,为希望提高锂离子电池操作寿命的研究人员和工业从业者提供了有价值的见解。
arXiv:2503.13441v2 通告类型: replace-cross
摘要:使用多样化数据训练人形机器人的操作策略可以增强它们在不同任务和平台上的稳定性和泛化能力。然而,仅从机器人演示中学习需要昂贵的手动操作数据采集,这难以大规模扩展。本文探讨了一种更具扩展性的数据来源——以自我为中心的人类演示——作为机器人学习的跨体态训练数据。我们从数据和建模两个方面减轻了人类与人形机器人的体态差距。我们收集了一个与人形机器人操作演示直接对齐的以自我为中心的任务导向数据集(PH2D)。然后,我们训练了一个人类-人形机器人行为策略,我们称之为人类动作变换器(HAT)。HAT的状态-动作空间同时适用于人类和人形机器人,可以可微地重新针对机器人动作。通过小规模机器人数据协同训练,HAT直接将人类和人形机器人建模为不同的体态,无需额外的监督。我们展示了人类数据在显著提高HAT的泛化能力和稳定性方面的改进,同时提高了数据采集效率。代码和数据:https://human-as-robot.github.io/
arXiv:2503.12999v2 通知类型: 替换-交叉
摘要:视觉-语言模型(VLMs)在多种多模态任务中表现出色。最近,人们对提高VLMs的个性化能力产生了越来越多的兴趣。为了更好地将用户提供的概念整合到VLMs中,许多方法使用正样本和负样本来微调这些模型。然而,用户提供的正样本的稀缺性和检索到的负样本质量较低对微调构成了挑战。为揭示样本与模型性能之间的关系,我们系统地研究了正样本和负样本(易和难)以及其多样性对VLM个性化任务的影响。基于详细的分析,我们引入了Concept-as-Tree(CaT),这是一种将概念表示为树结构的方法,从而使得可以生成不同难度和多样性的正负样本,用于VLM个性化。通过精心设计的数据过滤策略,我们的CaT框架可以确保生成数据的质量,形成一个强大的流水线。我们使用各种VLM个性化基线进行了彻底的实验,以评估该流水线的有效性,从而缓解正样本的稀缺性以及负样本质量较低的问题。我们的结果显示,配备了提出的数据过滤器的CaT显著增强了MyVLM、Yo'LLaVA和MC-LLaVA数据集上VLMs的个性化能力。据我们所知,这是第一个可控的VLM个性化合成数据流水线。代码发布在 https://github.com/zengkaiya/CaT。
arXiv:2503.12836v2 宣告类型: 替换-交叉
摘要:3D 高斯散点图(3DGS)使得 3D 重建和新视角合成的快速可微渲染成为可能,因此在商业应用中得到了广泛应用。因此,通过水印进行版权保护变得至关重要。然而,由于 3DGS 依赖于数百万个高斯分布,这些高斯分布需要数 GB 的存储空间,因此高效的传输和存储需要进行压缩。现有的 3DGS 水印方法对基于量化压缩非常脆弱,往往会导致嵌入的水印丢失。为了解决这一挑战,我们提出了一种新的水印方法,确保在模型压缩后保持水印的稳健性,同时保持高质量的渲染。具体来说,我们引入了一种量化失真层,在训练期间模拟压缩,以在基于量化压缩的情况下保留水印。此外,我们提出了一种可学习的水印嵌入特征,将水印嵌入锚定特征中,确保结构一致性和无缝集成到 3D 场景中。此外,我们提出了一种频率意识的锚定生长机制,通过有效地识别高频率区域内的高斯分布,增强图像质量。实验结果证实了我们的方法在高压缩比下既能保留水印又能保持高质量的图像,验证了其作为安全 3DGS 模型的一种有潜力的方法的有效性。
arXiv:2503.12642v2 通告类型: replace-cross
摘要:冠状病毒,包括SARS-CoV-2,导致了2019年12月在中国武汉出现的高度传染性疾病COVID-19。在过去五年里,对病毒的理解和抑制有了显著进步。尽管最初的爆发导致了全球性的健康危机,但改进的疫苗接种策略、抗病毒治疗方法和基于AI的诊断工具已经有助于更好地管理疾病。然而,COVID-19仍然对免疫受损个体和有基础疾病的人群构成风险。本研究探讨了使用深度学习进行快速准确的COVID-19诊断的应用,以应对医疗基础设施和检测可及性方面的持续挑战。我们提出了一种利用最新卷积神经网络(CNN)的增强自动化检测系统,包括VGG16、VGG19和ResNet50的更新版本,以从胸部X射线和计算机断层扫描(CT)图像中分类COVID-19感染病例。基于扩展的数据集,包含超过6000张医学图像,我们的结果表明,优化后的ResNet50模型获得了最高的分类性能,准确率为97.77%,敏感性为100%,特异性为93.33%,F1分数为98.0%。这些发现强化了AI辅助诊断工具在早期发现和应对流行病方面的潜力。