arXiv 论文列表

作者: Huifa Li, Jie Fu, Xinpeng Ling, Zhiyu Sun, Kuncan Wang, Zhili Chen

单细胞RNA测序(scRNA-seq)技术的快速发展使得研究细胞水平的组织异质性成为可能。细胞注释显著促进了scRNA-seq数据的广泛下游分析。然而，由于scRNA-seq数据的复杂性和不确定性分布（特征是数据量大且缺失事件频率高），其生物学推断分析面临挑战。此外，训练样本的质量差异很大，流行的scRNA-seq数据聚类解决方案GNN的性能可能会受到两种低质量训练节点的影响：1）边界上的节点；2）对图几乎没有额外信息贡献的节点。为了解决这些问题，我们提出了一种基于单细胞课程学习的深度图嵌入聚类方法(scCLG)。我们首先提出了一种具有多解码器的切比雪夫图卷积自编码器(ChebAE)，它结合了对应于三个解码器的三个优化目标，包括细胞图的拓扑重建损失、零膨胀负二项式(ZINB)损失和聚类损失，以学习细胞-细胞拓扑表示。同时，我们采用选择性训练策略，基于节点的特征和熵来训练GNN，并根据难度得分修剪困难节点以保留高质量图。在各种基因表达数据集上的实证结果表明，我们的模型优于现有最先进的方法。

发布时间: 11/27/2024

查看原文

LLM4DSR：利用大型语言模型进行去噪序贯推荐

作者: Bohao Wang, Feng Liu, Changwang Zhang, Jiawei Chen, Yudi Wu, Sheng Zhou, Xingyu Lou, Jun Wang, Yan Feng, Chun Chen, Can Wang

基于序列的推荐系统根据用户的历史交互序列生成推荐结果。然而，实践中收集到的这些序列往往包含噪声交互，这会显著损害推荐性能。由于缺乏指示噪声的明确监督信号，在没有额外信息的情况下准确识别这些噪声交互尤其具有挑战性。拥有广泛开放知识和语义推理能力的大型语言模型 (LLM) 为弥合这一信息差距提供了一条有前景的途径。然而，将LLM用于序列推荐中的去噪工作也面临着显著的挑战：1）直接应用预训练的LLM可能无法胜任去噪任务，经常会生成无意义的响应；2）即使经过微调，LLM输出的可靠性仍然值得怀疑，特别是考虑到去噪任务的复杂性和LLM固有的幻觉问题。为了应对这些挑战，我们提出了LLM4DSR，这是一种利用LLM进行序列推荐去噪的定制方法。我们构建了一个自监督微调任务，以激活LLM识别噪声项目并建议替代项的能力。此外，我们开发了一个不确定性估计模块，以确保仅使用高置信度的响应来进行序列校正。值得注意的是，LLM4DSR与模型无关，允许将校正后的序列灵活地应用于各种推荐模型。大量的实验验证了LLM4DSR优于现有方法的优越性。

发布时间: 11/27/2024

查看原文

虚拟CAT的设计：一款用于义务教育阶段算法思维评估的数字工具

作者: Giorgia Adorni, Alberto Piatti

算法思维(AT)是当今数字社会一项关键技能，它不仅在计算机科学相关领域不可或缺，在日常问题解决中也必不可少。作为数字教育和素养的基础组成部分，培养AT技能与所有学生的学习日益相关，并应成为义务教育的标准组成部分。然而，成功地将AT融入正规教育需要有效的教学策略以及强大且可扩展的评估程序。本文介绍了虚拟交叉阵列任务(CAT)的设计和开发过程，这是一种非插电评估活动的数字化改编，旨在评估瑞士义务教育中的算法技能。开发过程遵循迭代设计循环，结合专家评估以改进工具的可用性、可访问性和功能性。参与式设计研究在塑造平台方面发挥了双重作用。首先，它从最终用户（包括学生和教师）那里收集了宝贵的见解，以确保该工具在课堂环境中的相关性和实用性。其次，它促进了与学生AT技能相关的数据的收集和初步分析，提供了对该工具在不同发展阶段的评估能力的初步评估。这是通过一项涉及4至12岁不同年龄段学生的试点研究实现的，涵盖了学前教育到初中阶段。由此产生的工具具有多语言支持，并包括基于手势和基于视觉块的编程接口，使其能够为广大学习者所访问。试点研究的结果表明该平台的可用性和可访问性，以及其评估AT技能的适用性，初步结果显示其能够满足不同年龄段和教育背景的需求。

发布时间: 11/27/2024

查看原文

面向物理世界的干净标签后门攻击

作者: Thinh Dao, Cuong Chi Le, Khoa D Doan, Kok-Seng Wong

深度神经网络（DNN）已被证明容易受到后门投毒攻击，大多数研究都集中在**数字触发器**上——这是一种添加到测试时输入的特殊模式，以诱导目标错误分类。**物理触发器**，即物理场景中的自然物体，已成为一种理想的替代方案，因为它能够在无需数字操作的情况下实现实时后门激活。然而，目前的物理后门攻击需要投毒输入具有错误标签，这使得它们很容易被人为检查出来。在本文中，我们通过对面部识别和动物分类任务的实验，探索了一种新的攻击范式，即**干净标签物理后门攻击 (CLPBA)**。我们的研究表明，使用正确的投毒算法和物理触发器，CLPBA 可能构成严重的威胁。一个关键发现是，与利用记忆机制在深度网络中植入后门的数字后门攻击不同，CLPBA 通过扰动将触发器分布的特征（即触发器样本的分布）嵌入到投毒图像中。我们还发现，具有代表性的防御措施并不能轻易防御 CLPBA，因为 CLPBA 从根本上打破了这些防御背后的核心假设。我们的研究强调了意外后门激活是 CLPBA 的一个局限性，当意外的物体或类别导致模型错误分类为目标类别时就会发生这种情况。代码和数据集可在 https://github.com/21thinh/Clean-Label-Physical-Backdoor-Attacks 找到。

发布时间: 11/27/2024

查看原文

ALPI：基于仅用二维标签的代理注入式自动标注器，用于三维目标检测

作者: Saad Lahlali, Nicolas Granger, Herv\'e Le Borgne, Quoc-Cuong Pham

三维目标检测在自动驾驶、机器人和增强现实等多种应用中扮演着至关重要的角色。然而，训练三维检测器需要昂贵的精确标注，这阻碍了大规模数据集的标注。为了解决这一挑战，我们提出了一种弱监督的三维标注器，它仅依赖于图像的二维边界框标注以及尺寸先验信息。一个主要问题是，仅使用二维框来监督三维检测模型并不可靠，因为不同的三维姿态及其相同的二维投影之间存在歧义。我们引入了一种简单而有效且通用的解决方案：我们构建具有结构化标注的三维代理对象，并将它们添加到训练数据集中。我们的方法只需要尺寸先验信息就能适应新的类别。为了更好地将二维监督与三维检测对齐，我们的方法使用二维损失的新颖表达来确保深度不变性。最后，为了检测更具挑战性的实例，我们的标注器遵循离线伪标签方案，逐步改进其三维伪标签。在KITTI数据集上的大量实验表明，我们的方法不仅在“汽车”类别上的性能与之前的作品相当或更好，而且在更具挑战性的类别上也达到了接近全监督方法的性能。我们进一步通过首次在更具挑战性的nuScenes数据集上进行实验，证明了我们方法的有效性和鲁棒性。我们还提出了一种设置，其中弱标签是从在MS-COCO上预训练的二维检测器而不是人工标注中获得的。代码可在https://github.com/CEA-LIST/ALPI获取。

发布时间: 11/27/2024

查看原文

人群计数掩码自动补全：用于鲁棒人群密度预测

作者: Ryo Fujii, Ryo Hachiuma, Hideo Saito

人群密度预测任务旨在根据观察到的过去人群密度图预测未来人群密度图的变化。然而，由于行人漏检，过去的人群密度图往往不完整，因此开发一个能够抵抗漏检的鲁棒人群密度预测模型至关重要。本文提出了一种用于人群密度预测的基于掩码的人群密度补全框架 (CrowdMAC)，该框架同时训练从部分掩码的过去人群密度图（即从存在漏检的过去地图预测地图）预测未来人群密度图，同时重建掩码的观测图（即填充存在漏检的过去地图）。此外，我们提出了时间密度感知掩码 (TDM)，它考虑人群密度图的稀疏性和后续帧对预测任务的信息量，对观察到的人群密度图中的标记进行非均匀掩码。此外，我们引入了多任务掩码以提高训练效率。在实验中，CrowdMAC 在七个大型数据集（包括 SDD、ETH-UCY、inD、JRDB、VSCrowd、FDST 和 croHD）上取得了最先进的性能。我们还证明了该方法对合成漏检和真实漏检的鲁棒性。

发布时间: 11/27/2024

查看原文

加权一阶模型计数与图多项式之间的桥梁

作者: Qipeng Kuang, Ond\v{r}ej Ku\v{z}elka, Yuanhong Wang, Yuyi Wang

加权一阶模型计数问题 (WFOMC) 旨在计算给定一阶逻辑语句在给定域上的模型的加权和。对于来自具有计数量词的双变量片段（称为 C²）的语句，它可以在域大小的多项式时间内求解。已知当通过以下公理之一扩展 C² 时，这种多项式时间复杂度得以保留：线性序公理、树公理、森林公理、有向无环图公理或连通性公理。一个有趣的问题仍然是还可以以这种方式向一阶语句中添加哪些其他公理。我们通过将 WFOMC 与图多项式关联起来，为这个问题提供了一个新的视角。利用 WFOMC，我们为一阶逻辑语句定义了弱连通性多项式和强连通性多项式。事实证明，这些多项式具有以下有趣的性质。首先，对于来自 C² 的语句，它们可以在域大小的多项式时间内计算。其次，我们可以用它们来解决所有已知易处理的公理以及新的公理（例如二分性、强连通性、具有 k 个连通分量等）的 WFOMC。第三，著名的 Tutte 多项式可以作为弱连通性多项式的特例恢复，严格和非严格有向色多项式可以从强连通性多项式中恢复。

发布时间: 11/27/2024

查看原文

无约束开放词汇图像分类：基于CLIP反演的文本到图像零样本迁移

作者: Philipp Allgeuer, Kyra Ahrens, Stefan Wermter

我们介绍了NOVIC，这是一种创新的实时无约束开放词汇图像分类器，它使用自回归Transformer生成性地将分类标签输出为语言。NOVIC利用CLIP模型的丰富知识，利用嵌入空间实现从纯文本到图像的零样本迁移。传统的CLIP模型尽管能够进行开放词汇分类，但需要详尽的潜在类别标签提示，这限制了其在已知内容或上下文图像中的应用。为了解决这个问题，我们提出了一种“对象解码器”模型，该模型在一个大型的9200万目标数据集上进行训练，该数据集包含模板化的对象名词集和LLM生成的标题，以始终输出相关的对象名词。这有效地反转了CLIP文本编码器，并允许直接从图像衍生的嵌入向量生成基本上整个英语中的文本对象标签，而无需任何关于图像潜在内容的先验知识，也无需任何标签偏差。训练后的解码器在手动和网络策划的数据集以及标准图像分类基准上进行了测试，并实现了高达87.5%的细粒度免提示预测分数，考虑到该模型必须适用于任何可以想象的图像并且没有任何上下文线索，这是一个强有力的结果。

发布时间: 11/27/2024

查看原文

IL-TUR：印度法律文本理解与推理基准

作者: Abhinav Joshi, Shounak Paul, Akshat Sharma, Pawan Goyal, Saptarshi Ghosh, Ashutosh Modi

全球法律系统面临着案件和文件呈指数级增长的困境。迫切需要开发自然语言处理 (NLP) 和机器学习 (ML) 技术来自动处理和理解法律文件，从而简化法律系统。然而，评估和比较专门为法律领域设计的各种 NLP 模型极具挑战性。本文通过提出 IL-TUR：印度法律文本理解与推理基准来应对这一挑战。IL-TUR 包含单语（英语、印地语）和多语（9 种印度语言）特定领域的任务，这些任务从理解和推理印度法律文件的角度出发，处理法律系统的不同方面。我们为每个任务提供了基线模型（包括基于大型语言模型的模型），并概述了模型与真实情况之间的差距。为了促进法律领域的进一步研究，我们创建了一个排行榜（网址：https://exploration-lab.github.io/IL-TUR/），研究界可以在该排行榜上上传和比较法律文本理解系统。

发布时间: 11/27/2024

查看原文

预测、优化与修正：能源管理系统中的预测与策略稳定性研究

作者: Evgenii Genov, Julian Ruddick, Christoph Bergmeir, Majid Vafaeipour, Thierry Coosemans, Salvador Garcia, Maarten Messagie

本研究探讨了在能源管理系统中整合预测和优化的挑战，重点关注切换成本、预测精度和稳定性的影响。它提出了一种新颖的框架，用于分析具有切换成本并由确定性和概率性预测支持的在线优化问题。通过实证评估和理论分析，该研究揭示了预测精度、稳定性和切换成本之间在塑造策略绩效方面的平衡。研究在能源管理应用中的电池调度背景下进行，引入了一种评估概率预测稳定性的指标，并利用Citylearn 2022竞赛的真实案例检验了预测精度和稳定性对优化结果的影响。研究结果表明，切换成本显着影响预测精度和稳定性之间的权衡，突出了集成系统的重要性，该系统能够促进预测单元和运营单元之间的协作，以改进决策。研究表明，与频繁更新相比，长期坚持一项策略可能更有优势。结果还显示预测稳定性和策略绩效之间存在相关性，表明稳定的预测可以降低切换成本。该框架为能源部门决策者和预测从业人员在设计能源管理系统运行时提供了宝贵的见解。

发布时间: 11/27/2024

查看原文