尽管视觉Transformer(ViT)在各种环境中取得了最先进的性能,但它们在执行涉及视觉关系的任务时却表现出令人惊讶的失败。这就引出一个问题:ViT是如何尝试执行需要计算对象之间视觉关系的任务的?以往解释ViT的努力往往集中于表征相关的低级视觉特征。相反,我们采用机制可解释性方法来研究ViT用于执行抽象视觉推理的高级视觉算法。我们提出了一个基本但又出奇困难的关系推理任务的案例研究:判断两个视觉实体是否相同。我们发现,在这个任务上微调的预训练ViT通常表现出两个定性不同的处理阶段,尽管没有明显的归纳偏差:1)感知阶段,其中局部对象特征被提取并存储在一个解耦的表示中;2)关系阶段,其中对象表示被比较。在第二阶段,我们发现证据表明ViT可以学习表示某种抽象的视觉关系,这种能力长期以来被认为是人工神经网络无法企及的。最后,我们证明了任何一个阶段的失败都可能阻止模型学习我们相当简单的任务的泛化解。通过从离散处理阶段的角度理解ViT,可以更精确地诊断和纠正现有和未来模型的不足。
将大型语言模型(LLM)用于改进学生模型(例如,知识蒸馏)是一种已被广泛研究的方法。然而,对于人类而言,教学不仅能改进学生,也能改进教师,因为它能促进更严格、更清晰的推理以及知识构建。我们提出一个问题:大型语言模型能否通过教学(LbT)来改进其推理能力?如果答案是肯定的,我们就可以潜在地解锁持续改进模型的可能性,而无需仅仅依赖于人工生成的数据或更强大的模型。本文对这个问题进行了初步探索。我们展示了如何将LbT的思想融入现有的LLM训练/提示流程中并取得改进。具体来说,我们设计了三种方法,每种方法都模拟LbT的三个层次之一:观察学生的反馈、从反馈中学习以及迭代学习,其目标是在不进行训练的情况下提高答案准确性,或通过微调来提高模型的内在能力。我们发现:(1)使用上下文学习作为学生的“学习”方法时,更容易让学生学习的教学材料具有更清晰、更准确的逻辑;(2)弱到强的泛化:LbT可能通过教授弱模型来帮助改进强模型;(3)学生的多样性可能会有所帮助:教授多个学生可能比教授一个学生或教师本身更好。我们希望我们的探索能够激发未来关于LbT的研究,并更广泛地将教育中的先进技术应用于改进LLM。代码和网站地址分别为https://github.com/imagination-research/lbt和https://sites.google.com/view/llm-learning-by-teaching。
针对中风患者的手部矫形器意图推断,由于数据收集的困难,极具挑战性。此外,肌电信号在不同条件、会话和受试者之间存在显著差异,使得分类器难以泛化。传统方法需要从新的条件、会话或受试者那里收集大量的标记数据集来训练意图分类器;然而,这个数据收集过程繁琐且耗时。在本文中,我们提出了一种名为ChatEMG的自回归生成模型,该模型可以根据提示(即给定的肌电信号序列)生成合成的肌电信号。ChatEMG使我们能够仅从新的条件、会话或受试者那里收集少量数据集,并用根据来自这个新环境的提示生成的合成样本对其进行扩展。ChatEMG通过生成式训练利用大量的先前数据,同时通过提示保持特定于上下文。我们的实验表明,这些合成样本与分类器无关,并且可以提高不同类型分类器的意图推断精度。我们证明了我们的完整方法可以集成到单个患者会话中,包括将分类器用于功能性矫形器辅助任务。据我们所知,这是第一次将部分基于合成数据训练的意图分类器用于中风幸存者矫形器的功能控制。视频、源代码和更多信息可在https://jxu.ai/chatemg找到。
少样本识别 (FSR) 旨在仅使用下游任务中每个概念的少量标记示例来训练分类模型,其中数据标注成本可能高得令人望而却步。我们开发了利用预训练视觉语言模型 (VLM) 来解决 FSR 的方法。我们特别探索了检索增强学习 (RAL),它从 VLM 的预训练集中检索数据以学习更好的模型来服务下游任务。RAL 已在零样本识别中得到广泛研究,但在 FSR 中仍未得到充分探索。虽然将 RAL 应用于 FSR 看起来很简单,但我们观察到一些有趣的新挑战和机遇。首先,有点令人惊讶的是,在一个大型检索数据集上微调 VLM 的性能不如最先进的零样本方法。这是由于检索数据的分布不平衡及其与下游任务中少量样本的领域差异造成的。其次,更令人惊讶的是,我们发现仅在少量样本上微调 VLM 就大大优于之前的 FSR 方法,并且在检索数据和少量样本数据的混合数据上进行微调可以产生更好的结果。第三,为了减轻数据分布不平衡和领域差异问题,我们提出了分阶段检索增强微调 (SWAT) 方法,该方法包括在第一阶段对混合数据进行端到端微调,并在第二阶段对少量样本数据重新训练分类器。在九个流行基准上的大量实验表明,SWAT 的准确率比以前的方法提高了 >6%。
文本属性图 (TAG) 通过自然语言描述增强图结构,从而促进对各种现实世界环境中数据及其互连的详细描述。然而,现有的 TAG 数据集主要只在节点上具有文本信息,而边通常仅由简单的二元或分类属性表示。这种缺乏丰富的文本边注释严重限制了对实体之间上下文关系的探索,阻碍了对图结构数据的更深入理解。为了解决这一差距,我们引入了文本边图数据集和基准 (TEG-DB),这是一个全面且多样化的基准文本边数据集集合,其节点和边上都具有丰富的文本描述。TEG-DB 数据集大规模且涵盖广泛的领域,从引用网络到社交网络。此外,我们对 TEG-DB 进行了广泛的基准测试,以评估包括预训练语言模型、图神经网络及其组合在内的当前技术能够在多大程度上利用文本节点和边信息。我们的目标是促进文本边图研究的进步,特别是在开发利用丰富的文本节点和边描述来增强图分析并提供对复杂现实世界网络更深入见解的方法方面。整个 TEG-DB 项目作为一个开源存储库公开访问,可在 Github 上访问,网址为 https://github.com/Zhuofeng-Li/TEG-Benchmark。
大型多模态模型 (LMM) 结合单模态编码器和大型语言模型 (LLM) 来执行多模态任务。尽管最近在这些模型的可解释性方面取得了进展,但对 LMM 内部表示的理解在很大程度上仍然是一个谜。本文提出了一种用于解释 LMM 的新框架。我们提出了一种基于字典学习的方法,应用于标记的表示。学习到的字典的元素对应于我们提出的概念。我们证明这些概念在视觉和文本方面都具有良好的语义基础。因此,我们将这些概念称为“多模态概念”。我们定性和定量地评估了学习到的概念的结果。我们证明,提取的多模态概念有助于解释测试样本的表示。最后,我们评估了不同概念之间的 disentanglement 以及视觉和文本方面概念的基础质量。我们的实现代码已公开发布。
手术工具检测是理解以自我为中心的开放式手术视频的一项基本任务。然而,由于手术工具类别分布高度不平衡、形状和纹理相似以及严重的遮挡,检测手术工具面临着巨大的挑战。缺乏全面的大规模数据集加剧了这些挑战。本文介绍了EgoSurgery-Tool,它是现有EgoSurgery-Phase数据集的扩展,其中包含使用连接到外科医生头部上的以自我为中心的摄像机拍摄的真实开放式手术视频以及阶段注释。EgoSurgery-Tool已密集标注了手术工具,包含超过4.9万个跨15个类别的外科手术工具边界框,构成一个大规模的手术工具检测数据集。EgoSurgery-Tool还提供了超过4.6万个手部边界框的手部检测注释,捕捉了对手术中活动理解至关重要的手部与物体交互信息。EgoSurgery-Tool优于现有数据集,因为它规模更大、手术工具种类更多、注释更多且场景更密集。我们使用九种流行的目标检测器对EgoSurgery-Tool进行了全面分析,以评估其在手术工具和手部检测中的有效性。
图神经网络 (GNN) 在节点分类、图分类和链路预测等多种任务中取得了巨大成功。然而,利用 GNN(以及更普遍的机器学习)来解决组合优化 (CO) 问题却鲜有探索。在这里,我们介绍了 GCON,这是一种新颖的 GNN 架构,它利用复杂的滤波器组和局部注意力机制来解决图上的组合优化问题。我们展示了我们的方法如何区别于之前的基于 GNN 的组合优化求解器,以及如何将其有效地应用于最大割、最小支配集和最大团问题,且无需监督学习。GCON 在所有任务中都具有竞争力,并且始终优于其他专门的基于 GNN 的方法,在最大割问题上与强大的 Gurobi 求解器不相上下。我们在 https://github.com/WenkelF/copt 提供了我们工作的开源实现。
通信效率日益受到关注,因为它被认为是大规模分布式和联邦机器学习应用中的主要瓶颈。在这种环境下,客户端被限制为通过通信图向其邻居传输少量量化信息。为解决这一具有挑战性的问题,人们做了许多努力,开发了用于去中心化非凸优化问题的压缩通信算法。尽管付出了相当大的努力,但目前的结果仍然存在各种问题,例如无法随着客户端数量扩展、需要大批量数据或梯度假设有限等。在本文中,我们介绍了 MoTEF,这是一种将通信压缩与动量跟踪和误差反馈相结合的新方法。我们的分析表明,MoTEF 实现了大多数所需特性,并且在任意数据异构性下显著优于现有方法。我们提供了数值实验来验证我们的理论发现,并证实了 MoTEF 的实际优越性。
手术阶段识别因其为现代手术室的诸多需求提供解决方案的潜力而备受关注。然而,大多数现有方法都集中在微创手术(MIS)上,而开放手术的手术阶段识别研究不足。这种差异主要归因于公开的用于手术阶段识别的开放手术视频数据集的匮乏。为了解决这个问题,我们引入了一个新的用于阶段识别的自我中心开放手术视频数据集,名为EgoSurgery-Phase。该数据集包含 15 小时的真实开放手术视频,涵盖 9 个不同的手术阶段,所有视频均使用连接在外科医生头上的自我中心摄像头拍摄。除了视频外,EgoSurgery-Phase 还提供注视信息。据我们所知,这是第一个公开的用于手术阶段识别的真实开放手术视频数据集。此外,受掩码自动编码器 (MAE) 在视频理解任务(例如动作识别)中取得显著成功的启发,我们提出了一种注视引导的掩码自动编码器 (GGMAE)。考虑到外科医生注视区域通常对手术阶段识别至关重要(例如,手术视野),在我们的 GGMAE 中,注视信息充当经验语义丰富性先验,引导掩码过程,从而更好地关注语义丰富的空间区域。GGMAE 在 EgoSurgery-Phase 上显著提高了之前的最先进识别方法(Jaccard 指标提高 6.4%)和基于掩码自动编码器的方法(Jaccard 指标提高 3.1%)。