arXiv 论文列表

作者: Zak Buzzard, Konstantin Hemker, Nikola Simidjievski, Mateja Jamnik

近年来，全切片图像 (WSI) 的计算分析取得了显著进展，其应用涵盖了重要的诊断和预后任务，例如生存预测或癌症亚型预测。许多最先进的模型将整个切片（可能高达 150,000 × 150,000 像素）作为许多图像块的集合进行处理，其大小需要计算代价低的特征聚合方法。然而，这些图像块中很大一部分是没有信息的，例如只包含健康或脂肪组织的图像块，这些图像块会给集合增加大量的噪声和大小。我们提出了一种新的自上而下的分层弱监督表示学习方法——病理学分层选择Transformer (PATHS)，用于计算病理学中的切片级任务。PATHS 的灵感来自于人类病理学家检查切片的方式，即以交叉放大倍数的方式递归地将每个放大倍数下的图像块过滤到与诊断相关的少量子集。我们的方法克服了处理整个切片的复杂性，实现了二次自注意力机制，并提供了一个简单易懂的区域重要性度量。我们将 PATHS 应用于癌症基因组图谱 (TCGA) 的五个数据集，并在切片级预测任务中取得了优于以往方法的性能，即使只处理了很小一部分切片。

发布时间: 11/28/2024

查看原文

无线边缘的鲁棒多任务大语言模型融合

作者: Aladin Djuhera, Vlad C. Andrei, Mohsen Pourghasemian, Haris Gacanin, Holger Boche, Walid Saad

多任务大型语言模型 (MTLLM) 对于许多无线边缘应用至关重要，因为用户需要专门的模型来高效处理多项任务。然而，训练 MTLLM 复杂且耗时，尤其是在任务发生变化时。最近，通过任务向量进行模型融合的概念已成为一种有效的组合微调参数以生成 MTLLM 的方法。本文研究了在最坏情况下的对抗性攻击下，使边缘用户能够通过任务向量协作构建此类 MTLLM 的问题。为此，首先研究了对抗性噪声对多任务模型融合的影响，并推导了所谓的权重 disentanglement 误差和均方误差 (MSE) 之间的关系。利用假设检验，直接证明了 MSE 增加了任务向量之间的干扰，从而导致模型融合无效。然后，提出了一种新颖的鲁棒 MTLLM 融合 (R-MTLLMF) 方法，该方法利用关于 LLM 架构和微调过程的见解，通过重新调整 MTLLM 来保护任务向量聚合免受对抗性噪声的影响。然后，在最坏情况和理想传输场景下比较所提出的 R-MTLLMF，以研究无线信道的影响。使用视觉 LLM 进行的大量模型融合实验证明了 R-MTLLMF 的有效性，在理想噪声场景下，它在八个不同的任务中实现了接近基线的性能，并且在最坏情况场景下显著优于未受保护的模型融合。结果进一步倡导对整体方法的弹性进行额外的物理层保护，从无线和 LLM 的角度来看。

发布时间: 11/28/2024

查看原文

SCoTT：基于视觉语言模型和策略性思维链的无线感知路径规划

作者: Aladin Djuhera, Vlad C. Andrei, Amin Seffo, Holger Boche, Walid Saad

路径规划对于许多实际应用，尤其是在机器人领域，是一个复杂的问题。然而，现有的算法本质上是穷举式的，并且当结合距离最小化之外的附加约束条件时，其复杂性会越来越高。本文提出了一种使用视觉语言模型 (VLMs) 的新方法，用于在复杂的无线感知环境中实现路径规划。为此，我们探索了具有真实世界无线射线追踪数据的数字孪生 (DT) 的见解，以保证平均路径增益阈值，同时最小化轨迹长度。首先，我们将 A* 等传统方法与几种无线感知扩展方法进行了比较，并推导出了一种最优迭代动态规划方法 (DP-WA*)，该方法充分考虑了 DT 中的所有路径增益和距离度量。在这些基线的基础上，我们研究了 VLMs 作为路径规划替代辅助工具的作用，并提出了一种战略性思维链任务 (SCoTT) 方法。SCoTT 将复杂的规划任务分解为几个子问题，并使用高级 CoT 提示解决每个子问题。结果表明，与 DP-WA* 相比，SCoTT 达到了非常接近的平均路径增益，同时产生了始终更短的路径长度。结果还表明，VLMs 可以通过有效地减少算法的搜索空间来加速 DP-WA*，从而节省高达 62% 的执行时间。这项工作强调了 VLMs 在未来数字系统中作为解决复杂任务的有能力的助手，同时增强用户交互和在各种无线约束下加速快速原型设计的潜力。

发布时间: 11/28/2024

查看原文

TimeMarker：一种用于长短视频理解的多功能视频-大型语言模型，具有卓越的时间定位能力

作者: Shimin Chen, Xiaohan Lan, Yitian Yuan, Zequn Jie, Lin Ma

大型语言模型（LLM）的快速发展显著推动了多模态大型语言模型（LMM）的进步，尤其是在视觉语言任务方面。然而，现有的视频语言模型往往忽略精确的时间定位，并且难以处理不同长度的视频。我们介绍了TimeMarker，这是一种用于基于视频内容进行高质量对话的多功能视频-LLM，强调时间定位。TimeMarker集成了时间分隔符标记来增强时间感知能力，精确地标记视频中的特定时刻。它采用AnyLength机制进行动态帧采样和自适应标记合并，能够有效处理短视频和长视频。此外，TimeMarker利用包括进一步转换的时间相关视频问答数据集在内的各种数据集，以增强其时间理解能力。图像和交错数据也被用来进一步增强模型的语义感知能力。评估结果表明，TimeMarker在多个基准测试中取得了最先进的性能，在短视频和长视频类别中均表现出色。我们的项目页面位于\url{https://github.com/TimeMarker-LLM/TimeMarker/}。

发布时间: 11/28/2024

查看原文

从开放词汇到开放世界：教视觉语言模型检测新颖物体

作者: Zizhao Li, Zhengkang Xiang, Joseph West, Kourosh Khoshelham

传统的目标检测方法基于封闭集假设，即模型只能检测训练集中预定义的固定数量的目标。最近关于开放词汇目标检测 (OVD) 的工作能够检测由无限词汇表定义的目标，这降低了针对特定任务训练模型的成本。然而，OVD 严重依赖于“先知”提供的准确提示，这限制了其在自动驾驶场景感知等关键应用中的使用。OVD 模型倾向于错误分类与已知类别语义相似的近似分布外 (NOOD) 对象，并忽略远分布外 (FOOD) 对象。为了解决这些限制，我们提出一个框架，使 OVD 模型能够在开放世界环境中运行，通过识别和增量学习新的目标。为了检测 FOOD 对象，我们提出了开放世界嵌入学习 (OWEL)，并引入了伪未知嵌入的概念，该概念基于已知类别的信息推断未知类别在连续语义空间中的位置。我们还提出了多尺度对比锚点学习 (MSCAL)，它通过提升不同尺度下目标嵌入的类内一致性来识别错误分类的未知对象。该方法在常见的开放世界目标检测和自动驾驶基准测试中取得了最先进的性能。

发布时间: 11/28/2024

查看原文

基于神经符号溯因模仿的远期规划学习

作者: Jie-Jing Shao, Hao-Ran Hao, Xiao-Wen Yang, Yu-Feng Li

近期基于模仿学习的方法在通过模仿观察-动作空间中的行为进行规划方面取得了可喜的成果。然而，它们在开放环境中的能力仍然受到限制，尤其是在长序列任务中。相比之下，传统的符号规划通过对人工定义的符号空间进行逻辑推理，在长序列任务中表现出色，但难以处理超出符号状态的观测，例如现实场景中遇到的高维视觉输入。在这项工作中，我们从溯因学习中汲取灵感，并引入一个新颖的框架——溯因模仿学习 (ABIL)，它整合了数据驱动学习和基于符号的推理的优势，从而实现长序列规划。具体来说，我们运用溯因推理来理解符号空间中的演示，并设计了序列一致性原则来解决感知和推理之间的冲突。ABIL 生成谓词候选来促进从原始观测到符号空间的感知，无需费力的谓词标注，为符号规划奠定了基础。通过符号理解，我们进一步开发了一个策略集合，其基础策略是基于不同的逻辑目标构建的，并通过符号推理进行管理。实验表明，我们的方法成功地利用与任务相关的符号理解观测结果，以辅助模仿学习。重要的是，ABIL 在各种长序列任务中显著提高了数据效率和泛化能力，突显了其作为长序列规划的一种有前景的解决方案。项目网站：\url{https://www.lamda.nju.edu.cn/shaojj/KDD25_ABIL/}

发布时间: 11/28/2024

查看原文

预测与行动：基于联合去噪过程的视觉策略学习

作者: Yanjiang Guo, Yucheng Hu, Jianke Zhang, Yen-Jen Wang, Xiaoyu Chen, Chaochao Lu, Jianyu Chen

扩散模型在图像生成任务（包括图像编辑和视频创作）中展现出非凡的能力，代表着对物理世界的良好理解。另一方面，扩散模型在机器人控制任务中也展现出前景，通过对动作进行去噪，也就是所谓的扩散策略。尽管扩散生成模型和扩散策略展现出不同的能力——分别是图像预测和机器人动作——但它们在技术上遵循类似的去噪过程。在机器人任务中，预测未来图像和生成动作的能力高度相关，因为它们共享物理世界的相同底层动力学。基于这一见解，我们引入了PAD，这是一个新颖的视觉策略学习框架，它在一个联合去噪过程中统一了图像预测和机器人动作。具体来说，PAD利用扩散Transformer (DiT) 来无缝集成图像和机器人状态，从而能够同时预测未来的图像和机器人动作。此外，PAD支持在机器人演示和大型视频数据集上进行联合训练，并且可以轻松扩展到其他机器人模式，例如深度图像。PAD超越了以前的方法，通过在一个数据高效的模仿学习环境中使用单一的文本条件视觉策略，在完整的Metaworld基准测试中取得了显著的26.3%的相对改进。此外，与最强的基线相比，PAD在真实的机器人操作环境中对未见任务展现出优越的泛化能力，成功率提高了28.0%。项目页面：https://sites.google.com/view/pad-paper

发布时间: 11/28/2024

查看原文

PDZSeg：利用视觉提示调整基础模型，用于机器人辅助内镜黏膜下剥离术中的剥离区域分割

作者: Mengya Xu, Wenjin Mo, Guankun Wang, Huxin Gao, An Wang, Zhen Li, Xiaoxiao Yang, Hongliang Ren

目的：内窥镜手术环境中，由于组织类型边界模糊，解剖区域分割面临挑战，导致模型误识别或忽略边缘，从而产生分割错误。本研究旨在在内镜黏膜下剥离术 (ESD) 过程中提供精确的解剖区域建议，提高 ESD 的安全性。方法：我们提出了一种基于提示的解剖区域分割 (PDZSeg) 模型，该模型旨在利用各种视觉提示，例如涂鸦和边界框。通过将这些提示叠加到图像上并在专用数据集上微调基础模型，我们的方法通过灵活的输入方法提高了分割性能和用户体验。结果：PDZSeg 模型通过三种实验设置进行了验证：域内评估、视觉提示可用性的可变性以及鲁棒性评估。使用 ESD-DZSeg 数据集，结果表明我们的方法优于最先进的分割方法。这是第一个将视觉提示设计整合到解剖区域分割的研究。结论：PDZSeg 模型有效地利用视觉提示来增强分割性能和用户体验，并以新颖的 ESD-DZSeg 数据集作为 ESD 解剖区域分割的基准来支持。我们的工作为未来的研究奠定了基础。

发布时间: 11/28/2024

查看原文

基于语言模型的最新关系抽取技术综述

作者: Jose A. Diaz-Garcia, Julio Amador Diaz Lopez

这篇综述深入探讨了关系抽取 (RE) 的最新进展，关系抽取是自然语言处理中一项关键任务，在生物医学、金融和法律等领域都有着重要的应用。本研究通过分析过去四年中计算语言学协会 (ACL) 会议上发表的 137 篇论文，重点关注利用语言模型的模型，从而阐明了关系抽取技术的演变和现状。我们的研究结果强调了基于 BERT 的方法在实现关系抽取最先进结果方面的优势，同时也指出了新兴大型语言模型 (LLM)（如 T5）的潜力，尤其是在少样本关系抽取场景中，它们在识别以前未见过的关系方面表现出色。

发布时间: 11/28/2024

查看原文

基于量子机器学习预测水质：以姆格尼流域（U20A）研究区域为例

作者: Muhammad Al-Zafar Khan, Jamal Al-Karaki, Marwan Omar

本研究将量子机器学习 (QML) 技术应用于南非德班U20A地区水质研究的实际案例。具体而言，我们应用了量子支持向量分类器 (QSVC) 和量子神经网络 (QNN)，结果表明 QSVC 更易于实现且精度更高。我们对 QSVC 模型使用了线性、多项式和径向基函数 (RBF) 三种核函数，结果表明多项式核和 RBF 核的性能完全相同。在应用 QNN 模型时，我们考虑了不同的优化器、学习率、电路组件噪声和权重初始化，但 QNN 持续出现死神经元问题。因此，我们仅从准确率和损失方面比较了 QNN，结果表明 Adam 优化器下模型性能最佳，但仍低于 QSVC。

发布时间: 11/28/2024

查看原文