LLM2D

arXiv 论文列表

作者: Huifa Li, Jie Fu, Xinpeng Ling, Zhiyu Sun, Kuncan Wang, Zhili Chen
单细胞RNA测序(scRNA-seq)技术的快速发展使得研究细胞水平的组织异质性成为可能。细胞注释对scRNA-seq数据的广泛下游分析有重要贡献。然而,由于scRNA-seq数据的复杂性和不确定性分布(特征是数据量大且缺失事件频率高),用于生物学推断的scRNA-seq分析面临挑战。此外,训练样本的质量差异很大,流行的scRNA-seq数据聚类解决方案GNN的性能可能会受到两种类型的低质量训练节点的影响:1)边界上的节点;2)对图几乎没有额外信息贡献的节点。为了解决这些问题,我们提出了一种基于单细胞课程学习的深度图嵌入聚类方法(scCLG)。我们首先提出了一种具有多准则的切比雪夫图卷积自编码器(ChebAE),它结合了三个优化目标,包括细胞图的拓扑重建损失、零膨胀负二项式(ZINB)损失和聚类损失,以学习细胞-细胞拓扑表示。同时,我们采用选择性训练策略,基于节点的特征和熵来训练GNN,并根据难度分数修剪困难节点以保持高质量的图。在各种基因表达数据集上的实证结果表明,我们的模型优于最先进的方法。scCLG的代码将公开发布于https://github.com/LFD-byte/scCLG。
发布时间: 11/27/2024
查看原文
作者: Saad Lahlali, Nicolas Granger, Herv\'e Le Borgne, Quoc-Cuong Pham
三维目标检测在自动驾驶、机器人和增强现实等多种应用中起着至关重要的作用。然而,训练三维检测器需要代价高昂的精确标注,这阻碍了大规模数据集的标注。为了解决这一挑战,我们提出了一种弱监督的三维标注器,它仅依赖于图像的二维边界框标注以及尺寸先验信息。一个主要问题是,仅使用二维框来监督三维检测模型并不可靠,因为不同的三维姿态及其相同的二维投影之间存在歧义。我们引入了一种简单而有效且通用的解决方案:我们构建具有构造性标注的三维代理对象并将它们添加到训练数据集中。我们的方法只需要尺寸先验信息就能适应新的类别。为了更好地将二维监督与三维检测对齐,我们的方法使用二维损失的新颖表达来确保深度不变性。最后,为了检测更具挑战性的实例,我们的标注器采用了一种离线伪标签方案,逐步改进其三维伪标签。在KITTI数据集上的大量实验表明,我们的方法不仅在汽车类别上的性能与现有方法相当或优于现有方法,而且在更具挑战性的类别上也取得了接近全监督方法的性能。我们进一步通过首次在更具挑战性的nuScenes数据集上进行实验,证明了我们方法的有效性和鲁棒性。我们还提出了一种设置,其中弱标签是从在MS-COCO上预训练的二维检测器而不是人工标注中获得的。代码可在https://github.com/CEA-LIST/ALPI获取。
发布时间: 11/27/2024
查看原文
人群密度预测任务旨在根据观测到的过去人群密度图预测未来人群密度图的变化。然而,由于行人漏检,过去的人群密度图往往不完整,因此开发一个能够抵抗漏检的鲁棒人群密度预测模型至关重要。本文提出了一种用于人群密度预测的基于掩码的人群密度补全框架(CrowdMAC),该框架同时训练从部分掩码的过去人群密度图(即从存在漏检的过去地图预测地图)预测未来人群密度图,并重构掩码观测图(即填充存在漏检的过去地图)。此外,我们提出了考虑人群密度图的稀疏性和后续帧对预测任务的信息量的时空密度感知掩码(TDM),该方法对观测到的人群密度图中的标记进行非均匀掩码。此外,我们引入了多任务掩码以提高训练效率。在实验中,CrowdMAC 在七个大型数据集(包括 SDD、ETH-UCY、inD、JRDB、VSCrowd、FDST 和 croHD)上取得了最先进的性能。我们还证明了该方法对合成和现实漏检的鲁棒性。代码已发布在 https://fujiry0.github.io/CrowdMAC-project-page。
发布时间: 11/27/2024
查看原文
作者: Jingwei Li, Jing Dong, Tianxing He, Jingzhao Zhang
鉴于AI生成艺术日益普及以及相关的版权问题,识别某幅艺术作品是否被用于训练扩散模型是一个重要的研究课题。本研究从成员推断攻击(MIA)的角度来解决这个问题。我们首先指出了将现有MIA方法应用于专有扩散模型的局限性:需要访问内部U-net。为了解决上述问题,我们提出了一种新的成员推断攻击方法,该方法仅使用图像到图像变化API,无需访问模型的内部U-net。我们的方法基于这样的直觉:对于训练集中的图像,模型更容易获得无偏噪声预测估计。通过多次将API应用于目标图像,平均输出结果,并将结果与原始图像进行比较,我们的方法可以对样本是否属于训练集进行分类。我们使用DDIM和Stable Diffusion设置验证了我们的方法,并进一步将我们的方法和现有算法扩展到Diffusion Transformer架构。我们的实验结果始终优于以前的方法。
发布时间: 11/27/2024
查看原文
作者: Shuyuan Tu, Zhen Xing, Xintong Han, Zhi-Qi Cheng, Qi Dai, Chong Luo, Zuxuan Wu
当前用于人体图像动画的扩散模型难以确保身份(ID)一致性。本文提出了StableAnimator,这是一个首个端到端保持ID一致性的视频扩散框架,它无需任何后处理即可合成高质量视频,其条件是参考图像和一系列姿态。StableAnimator基于视频扩散模型构建,包含精心设计的训练和推理模块,力求身份一致性。特别是,StableAnimator首先分别使用现成的提取器计算图像和面部嵌入,并通过使用全局内容感知的面部编码器与图像嵌入交互来进一步细化面部嵌入。然后,StableAnimator引入了一种新颖的分布感知ID适配器,通过对齐来保持ID,同时防止时间层造成的干扰。在推理过程中,我们提出了一种基于汉密尔顿-雅可比-贝尔曼(HJB)方程的新型优化方法,以进一步提高面部质量。我们证明了解决HJB方程可以集成到扩散去噪过程中,所得解约束了去噪路径,从而有利于ID保持。在多个基准测试上的实验结果定性和定量地证明了StableAnimator的有效性。
发布时间: 11/27/2024
查看原文
作者: Margaret Capetz, Swati Sharma, Rafael Padilha, Peder Olsen, Jessica Wolk, Emre Kiciman, Ranveer Chandra
减缓气候变化需要转变农业生产方式,以最大限度地减少环境影响并增强气候适应能力。再生农业实践能够提高土壤有机碳 (SOC) 水平,从而改善土壤健康状况并封存碳。扩大再生农业实践面临的一个挑战是廉价地测量 SOC 的随时间变化,并了解 SOC 如何受再生农业实践以及其他环境因素和农场管理实践的影响。为了应对这一挑战,我们引入了一种人工智能驱动的土壤有机碳辅助系统,该系统可自动摄取复杂的多分辨率、多模式数据,从而提供关于土壤健康和再生实践的大规模见解。我们的数据包括极端天气事件数据(例如,干旱和野火事件)、农场管理数据(例如,耕地信息和耕作预测)以及 SOC 预测。我们发现,整合公共数据和专业模型能够对可持续农业进行大规模的局部分析。通过比较加利福尼亚州各县的农业实践,我们发现证据表明,多样化的农业活动可以减轻耕作的负面影响;并且虽然极端天气条件严重影响 SOC,但堆肥可以减轻 SOC 的损失。最后,实施特定角色的个性化功能使农学家、农场顾问、政策制定者和其他利益相关者能够实施循证策略,以促进可持续农业和增强气候适应能力。
发布时间: 11/27/2024
查看原文
作者: Ingrid Zukerman
本报告简要总结了哲学、心理学和认知科学中关于解释性优点的文献,并将这些概念与可解释人工智能联系起来。
发布时间: 11/27/2024
查看原文
作者: Baptiste Chatelier (INSA Rennes, IETR, MERCE-France), Jos\'e Miguel Mateos-Ramos (MERCE-France), Vincent Corlay (MERCE-France), Christian H\"ager (INSA Rennes, IETR), Matthieu Crussi\`ere (INSA Rennes, IETR), Henk Wymeersch (INSA Rennes, IETR), Luc Le Magoarou (INSA Rennes, IETR)
到达方向 (DoA) 估计是雷达、声纳、音频和无线通信系统中常见的传感问题。随着集成感知和通信范式的出现,它获得了新的重要性。为了充分发挥此类传感系统的潜力,必须考虑可能对获得的性能产生负面影响的潜在硬件损伤。本研究提出了一种基于模型的方法,该方法联合进行 DoA 估计和硬件损伤学习。具体来说,推导出了多信号分类 (MUSIC) 算法的可微版本,从而可以有效地学习所考虑的损伤。所提出的方法支持监督学习和无监督学习策略,展示了其实际潜力。仿真结果表明,该方法成功地学习了天线位置和复增益中的重大误差。此外,该方法在 DoA 估计任务中优于经典的 MUSIC 算法。
发布时间: 11/27/2024
查看原文
作者: Atilla P. Kiraly, Sebastien Baur, Kenneth Philbrick, Fereshteh Mahvar, Liron Yatziv, Tiffany Chen, Bram Sterling, Nick George, Fayaz Jamil, Jing Tang, Kai Bailey, Faruk Ahmed, Akshay Goel, Abbi Ward, Lin Yang, Andrew Sellergren, Yossi Matias, Avinatan Hassidim, Shravya Shetty, Daniel Golden, Shekoofeh Azizi, David F. Steiner, Yun Liu, Tim Thelin, Rory Pilgrim, Can Kirmizibayrak
强大的医疗机器学习(ML)模型有潜力通过加速临床研究、改进工作流程和结果以及产生新的见解或能力来彻底改变医疗保健。从零开始开发此类ML模型成本高昂,需要大量的计算资源、数据和时间(例如,专家标注)。为了应对这些挑战,我们引入了健康人工智能开发者基础(HAI-DEF),这是一套预训练的、特定领域的foundation model、工具和方案,旨在加速医疗应用的ML构建。这些模型涵盖各种模式和领域,包括放射学(X光和计算机断层扫描)、组织病理学、皮肤病学影像和音频。与传统方法相比,这些模型提供特定领域的嵌入,从而能够在标记数据更少、训练时间更短以及计算成本更低的情况下促进人工智能开发。此外,我们在这些模型中使用了通用的接口和风格,并优先考虑可用性,使开发人员能够高效地集成HAI-DEF。我们展示了跨各种任务的模型评估,并以关于其应用和评估的讨论作为结尾,涵盖了确保有效性、公平性和公正性的重要性。最后,虽然HAI-DEF,特别是foundation model降低了医疗保健中ML的入门门槛,但我们强调了使用针对每个所需使用场景的问题和人群特定数据进行验证的重要性。随着更多模式和功能的添加,这份技术报告将随着时间推移而更新。
发布时间: 11/27/2024
查看原文
作者: Huiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo
高效的视频分词仍然是训练能够处理长视频的视觉模型的一大挑战。一个很有前景的方向是开发一种能够编码长视频片段的分词器,因为它能够更好地利用视频的时间连贯性进行分词。然而,在长视频上训练现有的分词器往往会产生巨大的训练成本,因为它们被训练成一次性重建所有帧。在本文中,我们介绍了CoordTok,这是一种视频分词器,它学习从基于坐标的表示到输入视频相应补丁的映射,其灵感来自最近 3D 生成模型的进展。特别是,CoordTok 将视频编码为分解的三平面表示,并重建对应于随机采样的 (x,y,t) 坐标的补丁。这允许直接在长视频上训练大型分词器模型,而无需过多的训练资源。我们的实验表明,CoordTok 可以大幅减少编码长视频片段所需的标记数量。例如,CoordTok 可以将 128 帧、分辨率为 128×128 的视频编码为 1280 个标记,而基线则需要 6144 或 8192 个标记才能达到类似的重建质量。我们进一步表明,这种高效的视频分词能够实现内存高效的扩散变换器训练,该变换器可以一次生成 128 帧。
发布时间: 11/27/2024
查看原文