arXiv 论文列表

作者: Zhiwei Huang, Jiaqi Li, Ping Zhong, Rui Fan

arXiv:2502.00801v1 交叉类型: cross 摘要：LiDAR-相机外部校准（LCEC）是计算机视觉中数据融合的核心。现有方法通常依赖于定制的校准目标或固定的场景类型，缺乏处理传感器数据和环境背景变化的灵活性。本文介绍了EdO-LCEC，这是首个环境驱动的在线校准方法，实现了类似人类的适应性。受人类感知系统启发，EdO-LCEC 嵌入了一个通用的场景鉴别器，主动解释环境条件，并创建多个虚拟相机以捕捉详细的空间和纹理信息。为了克服LiDAR和相机之间的跨模态特征匹配挑战，我们提出了双路径对应匹配（DPCM），它利用结构和纹理一致性来实现可靠的三维-二维对应关系。我们的方法将校准过程形式化为时空联合优化问题，利用多视角和场景的全局约束以提高精度，特别是在稀疏或部分重叠的传感器视图中。实世界数据集上的广泛实验表明，EdO-LCEC 达到了最先进的性能，提供在不同且具有挑战性的环境中可靠的且精确的校准。

发布时间: 2/4/2025

查看原文

基于拓扑持久性知识精练的Mixup作用研究

作者: Eun Som Jeon, Hongjun Choi, Matthew P. Buman, Pavan Turaga

arXiv:2502.00779v1 类型: cross 摘要：可穿戴传感器数据的分析在多个应用中取得了许多成功。为了用足够的细节表示高采样率的时间序列，已经考虑使用拓扑数据分析（TDA），并发现TDA可以补充其他时间序列特征。然而，由于通过TDA提取拓扑特征所需的时间消耗大且计算资源需求高，很难在各种应用中部署拓扑知识。为了解决这个问题，可以采用知识蒸馏（KD）技术，这是一种通过从大型网络传输知识来生成较小模型，从而使模型压缩和迁移学习的技术。通过利用KD中的多个教师，可以同时传输时间序列和拓扑特征，最终通过仅使用时间序列数据生成一个更优秀的学生模型。另一方面，mixup 是一种广泛使用的鲁棒数据增强技术，用于在训练期间增强模型性能。KD和mixup采用类似的学习策略。在KD中，学生模型从教师模型生成的平滑分布中学习，而mixup则是通过混合两个标签生成平滑标签。因此，这种共同的平滑性作为连接这两个方法的纽带。在本文中，我们使用时间序列以及拓扑持久性分析了KD中mixup的作用，并采用了多个教师。我们对KD和mixup在可穿戴传感器数据中的各种方法进行了全面分析。

发布时间: 2/4/2025

查看原文

基于学习的TSP求解器往往会过于贪婪

作者: Xiayang Li, Shihua Zhang

arXiv:2502.00767v1 公告类型：交叉摘要：深度学习在解决欧几里得旅行商问题（TSP）等组合优化问题方面显示出显著的潜力。然而，现有TSP算法的大多数训练和测试实例都是从特定的分布（如均匀分布）中随机生成的。这导致了对深度学习算法在离分布外（OOD）泛化场景中的性能分析和理解不足，这些场景与组合优化领域的最坏情况性能密切相关。对于数据驱动的算法而言，随机生成数据集的统计属性至关重要。本研究构建了一种名为最近邻密度的统计量，用于验证随机生成数据集的渐近性质，并揭示基于学习的求解器的贪婪行为，即总是选择最近邻节点来构建解路径。基于这种统计量，我们开发了依赖于分布转移或实例扰动的可解释的数据增强方法，并验证了基于学习的求解器在增强数据上的性能明显下降。此外，使用增强数据微调基于学习的求解器进一步增强了它们的泛化能力。总之，我们揭示了基于学习的TSP求解器存在过度贪婪的局限性，这可能对AI赋能的组合优化求解器具有深远的影响。

发布时间: 2/4/2025

查看原文

AgentBreeder：缓解多智能体架构对人工智能安全的影响

作者: J Rosser, Jakob Nicolaus Foerster

arXiv:2502.00757v1 类别:交叉学科摘要: 将大型语言模型（LLMs）嵌入到多agent系统中通常可以提高复杂任务的性能，但这种框架的安全影响尚未得到充分探索。在本文中，我们介绍了AGENTBREEDER，这是一种多目标进化搜索框架。我们的REDAGENTBREEDER朝着破解基LLM的方向进化结构，同时实现高任务成功率，而BLUEAGENTBREEDER则旨在结合安全性和任务奖励。我们使用广泛认可的推理、数学和安全性基准测试由不同实例的AGENTBREEDER发现的系统和流行的基础线方法。我们的工作强调并减轻了多agent架构带来的安全风险。

发布时间: 2/4/2025

查看原文

面向任务的对话系统中模块联合优化的通用后处理网络

作者: Atsumoto Ohashi, Ryuichiro Higashinaka

arXiv:2502.00747v1 宣告类型: cross 摘要: 后处理网络（PPNs）是任务导向对话系统中修改任意模块输出的组件，并通过强化学习（RL）进行优化，以提高系统的整体任务完成能力。然而，以前基于PPN的方法仅限于处理系统内的子集模块，这在提高系统性能方面存在显著的限制。在本研究中，我们提出了一种针对所有模块输出进行联合优化的方法，使用基于语言模型的后处理网络（UniPPNs），这是一种可以将系统中任意模块的输出作为序列转换任务进行修改的网络。此外，我们的RL算法采用模块级别的马尔可夫决策过程，使得对每个模块进行精细的价值和优势估计成为可能，从而稳定所有模块输出后处理的联合学习。通过使用MultiWOZ数据集进行的基于仿真的实验和人类评估实验，我们证明了UniPPN在任务导向对话系统中的任务完成能力上优于传统的PPNs。

发布时间: 2/4/2025

查看原文

从遵循到利用：面向多模态LLM的 Jailbreak 提示攻击

作者: Chun Wai Chiu, Linghan Huang, Bo Li, Huaming Chen

arXiv:2502.00735v1 交叉公告类型摘要：由于大型语言模型（LLMs）的能力不断增强，能够处理包括文本、音频、图像和视频在内的各种类型输入数据，LLMs在各个领域得到了广泛应用。尽管LLMs在理解和生成不同场景下的上下文方面表现出色，但它们在基于提示的攻击中容易受到攻击，这些攻击主要通过文本输入实现。本文中，我们介绍了针对多模态LLMs的第一个基于语音的破坏攻击，称为包围攻击（Flanking Attack），该攻击可以同时处理不同类型的输入，面向多模态LLMs。我们的工作受到近期单语言语音驱动大型语言模型发展的激励，这些模型为LLMs引入了新的攻击面，超越了传统的基于文本的漏洞。为了调查这些风险，我们研究了前沿的多模态LLMs，这些LLMs可以通过不同类型的输入（如音频输入）访问，重点研究了恶意提示如何绕过其防御机制。我们提出了一种新颖的策略，在这种策略中，禁止的提示被良性、叙述驱动的提示包围。这种方法集成到了包围攻击中，试图使人化交互场景，并通过虚构的设定执行攻击。为了更好地评估攻击效果，我们提出了一种半自动化的自我评估框架，用于政策违规检测。我们证明，包围攻击能够操纵最先进的LLMs生成对齐不良和禁止的输出，在七个禁止场景中，攻击成功率的平均值范围从0.67到0.93。这些发现突显了语音启用环境中基于提示的混淆策略的威力，以及当前LLMs的监督保障措施的局限性，并强调了需要先进的防御策略来应对不断演变的、富有上下文的攻击所带来的挑战。

发布时间: 2/4/2025

查看原文

CycleGuardian：一种基于改进的深度聚类和对比学习的自动呼吸音分类框架

作者: Yun Chu, Qiuhao Wang, Enze Zhou, Ling Fu, Qian Liu, Gang Zheng

arXiv:2502.00734v1 宣告类型: cross 摘要: 听诊在早期呼吸和肺部疾病诊断中发挥着至关重要的作用。尽管在新冠肺炎之后出现了基于深度学习的自动呼吸音分类方法，但由于数据集有限，妨碍了性能的提升。正常呼吸音与异常呼吸音之间的区分因两种类型中都存在正常呼吸成分和噪声成分而变得具有挑战性。此外，不同的异常呼吸音表现出相似的异常特征，这阻碍了它们的区分。现有的最先进的模型还存在参数过大的问题，这妨碍了在资源受限的移动平台上部署。为了解决这些问题，我们设计了一个轻量级网络CycleGuardian，并提出了一种基于改进的深度聚类和对比学习的框架。我们首先生成混合光谱图以实现特征多样化和分组光谱图的生成，以促进异常间歇性声音的捕捉。然后，CycleGuardian将一个深度聚类模块与一个相似性约束聚类组件相结合，以提高捕获异常特征的能力，并将一个对比学习模块与分组混合相结合，以增强异常特征的辨识度。多目标优化在训练过程中提升了整体性能。在实验中，我们使用了ICBHI2017数据集，按照官方的分割方法，没有使用任何预训练权重，我们的方法在网络模型大小为38M的情况下，达到了Sp: 82.06%，Se: 44.47%，和Score: 63.26%。相较于现有模型，我们的方法领先近7%，实现了当前的最佳性能。此外，我们还部署了该网络在Android设备上，展示了一个综合的智能呼吸音听诊系统。

发布时间: 2/4/2025

查看原文

使用评分神经网络学习未知测量模型的贝叶斯克雷默-拉奥界

作者: Hai Victor Habi, Hagit Messer, Yoram Bresler

arXiv:2502.00724v1 类型: cross 摘要：贝叶斯克拉梅尔-拉奥界（BCRB）是信号处理领域中评估任何估计问题的基本限制以及在贝叶斯框架内进行基准测试的关键工具。然而，要计算BCRB，必须完全知道先验和测量分布。在本文中，我们提出了一种完全学习的贝叶斯克拉梅尔-拉奥界（LBCRB），该方法学习先验和测量分布。具体而言，我们提出了两种方法来获取LBCRB：后验方法和测量-先验方法。后验方法提供了一种简单的方法来获取LBCRB，而测量-先验方法使我们能够 Incorporate 领域知识以提高样本复杂性和可解释性。为了实现这一点，我们引入了带有物理编码评分神经网络，这使我们可以轻松地将这种领域知识融入神经网络中。我们理论地研究了两种建议方法的学习误差，并通过数值验证了它们。我们在几个信号处理示例上展示了这两种方法，包括带未知混合矩阵和高斯噪声协方差矩阵的线性测量问题，频率估计，以及量化测量。此外，我们还在实际水下背景噪声的非线性信号处理问题中的频率估计中测试了我们的方法。

发布时间: 2/4/2025

查看原文

基于 registrations 的前列腺癌超声图像分割方法

作者: Shengtian Sang, Hassan Jahanandish, Cynthia Xinran Li, Indrani Bhattachary, Jeong Hoon Lee, Lichun Zhang, Sulaiman Vesal, Pejman Ghanouni, Richard Fan, Geoffrey A. Sonn, Mirabela Rusu

arXiv:2502.00712v1 交叉公告类型摘要：前列腺癌是男性癌症相关死亡的主要原因，早期发现可以显著提高生存率。尽管MRI-TRUS融合活检通过将MRI的详细可视化与TRUS的实时指导相结合提供了更高的准确性，但它是一个复杂且耗时的过程，高度依赖于人工注释，可能导致潜在的错误。为应对这些挑战，我们提出了一种全自动化MRI-TRUS融合分割方法，可以直接在TRUS图像中识别前列腺肿瘤，而无需人工注释。与依赖朴素数据拼接的传统多模态融合方法不同，我们的方法采用了一个注册-分割框架，以对齐并利用MRI和TRUS模态之间的空间信息。此对齐提高了分割准确性，并减少了对人工努力的依赖。我们的方法在斯坦福医院1,747个患者的数据库上进行了验证，平均Dice系数达到0.212，优于仅TRUS（0.117）和朴素MRI-TRUS融合（0.132）方法，并且具有显著的改进（p < 0.01）。该框架展示了减少前列腺癌诊断复杂性的潜力，并提供了一种适用于其他多模态医学成像任务的灵活架构。

发布时间: 2/4/2025

查看原文

VIKSER：视觉知识驱动的自强化推理框架

作者: Chunbai Zhang, Chao Wang, Yang Zhou, Yan Peng

arXiv:2502.00711v1 类型: cross 摘要：视觉推理是指解决关于视觉信息的问题的任务。当前的视觉推理方法通常采用预训练的视觉-语言模型（VLM）策略或深度神经网络方法。然而，现有努力受到可解释性推理有限的限制，同时受问题文本中含义不足现象的阻碍。此外，缺乏精细的视觉知识限制了视觉推理任务中对主题行为的精确理解。为了解决这些问题，我们提出了一种名为 VIKSER（视觉知识驱动的自我增强推理框架）的方法。具体来说，VIKSER 利用大规模语言模型的知识蒸馏，借助视觉关系检测技术提取精细的视觉知识。随后，VIKSER 利用精细的视觉知识来重新表述含义不足的问题。此外，我们设计了一种名为 Chain-of-Evidence（CoE）的新型提示方法，利用“推理证据”的力量赋予 VIKSER 可解释的推理能力。同时，自我反思技术的结合赋予了 VIKSER 从错误中学习和改进的能力。在广泛使用的数据集上进行的实验表明，VIKSER 在相关任务中实现了新的最佳结果。

发布时间: 2/4/2025

查看原文