arXiv 论文列表

作者: Haozheng Luo, Chenghao Qiu, Maojiang Su, Zhihan Zhou, Zoe Mehta, Guo Ye, Jerry Yao-Chieh Hu, Han Liu

arXiv:2505.00598v1 网络类型: cross 摘要: 我们提出了首个统一的基因组基础模型(GFMs)对抗攻击基准,名为GERM。与现有的GFMs基准不同,GERM提供了一个全面的评估框架,可以系统地评估GFMs对对抗攻击的脆弱性。在方法上,我们使用四种广泛采用的攻击算法和三种防御策略来评估五种最先进的GFMs的对抗鲁棒性。重要的是,我们的基准提供了一个易于访问且全面的框架,用于分析模型架构、量化方案和训练数据集对GFMs脆弱性的影响。实验上,基于变压器的模型对对抗扰动显示出更大的鲁棒性,这与HyenaDNA相比,强调了架构设计对脆弱性的影响。此外,对抗攻击经常针对生物上具有重要意义的基因组区域,这表明这些模型有效地捕获了有意义的序列特征。

发布时间: 5/2/2025

查看原文

基于有限状态控制器的确定性POMDPs离线求解器

作者: Alex Schutz, Yang You, Matias Mattamala, Ipek Caliskanelli, Bruno Lacerda, Nick Hawes

arXiv:2505.00596v1 类型: 跨领域摘要: 确定性部分可观测马尔可夫决策过程（DetPOMDPs）经常出现在智能体对其环境状态存在不确定性，但可以进行确定性操作和观测的问题中。在本文中，我们提出了一种基于蒙特卡洛值迭代（MCVI）算法的适应性方法——DetMCVI，该方法构建有限状态控制器（FSCs）形式的策略。DetMCVI 能高效地解决大规模问题，并在 DetPOMDPs 领域中已有的基线方法中表现出色。此外，我们还在一个真实的移动机器人森林测绘场景中验证了该算法的性能。

发布时间: 5/2/2025

查看原文

合成和识别自动驾驶车辆摄像头雷达数据中的噪声水平

作者: Mathis Morales, Golnaz Habibi

arXiv:2505.00584v1 宣告类型：交叉摘要：检测和跟踪物体是任何自主导航方法中至关重要的组成部分。在过去几十年中，使用神经网络在各种数据集上进行物体检测已经取得了令人鼓舞的结果。尽管许多方法集中在性能指标上，但很少有项目致力于提高这些检测和跟踪流水线的鲁棒性，特别是在传感器失灵方面。在这篇论文中，我们通过为自动驾驶汽车（AV）的相机-雷达数据集创建一个现实的合成数据增强流水线来尝试解决这个问题。我们的目标是准确地模拟传感器故障以及由于实际环境干扰导致的数据退化。我们还介绍了基于我们增强数据集训练和测试的基本轻量级噪声识别神经网络的结果，该网络在10086张图片和2145个雷达点云上的11个类别中达到了54.4%的整体识别精度。

发布时间: 5/2/2025

查看原文

语音克隆：综述调研

作者: Hussam Azzuni, Abdulmotaleb El Saddik

arXiv:2505.00579v1 交叉类型公告：摘要：语音克隆在当今的数字世界中迅速发展，许多研究人员和公司致力于改进这些算法以应用于各种领域。本文旨在建立语音克隆的标准术语，并探讨其不同的变体。文章将介绍说话人适配作为基本概念，然后深入探讨在该背景下的话题，如少样本、零样本和多语言TTS。最后，我们将探讨语音克隆研究中常用的研究评价指标及相关数据集。这篇综述汇总了现有的语音克隆算法，以促进对其生成和检测的研究，以限制其被误用。

发布时间: 5/2/2025

查看原文

频域键值压缩：面向高效上下文窗口扩展

作者: Jushi Kai, Boyi Zeng, Yixuan Wang, Haoli Bai, Bo Jiang, Zhouhan Lin

arXiv:2505.00570v1 Announce Type: cross 摘要：在大规模语言模型（LLMs）中延长上下文窗口对于长形式内容生成的应用至关重要。然而，键值（KV）缓存内存需求的线性增加以及自注意力机制随着序列长度的平方级复杂度在微调和推理过程中提出了重大挑战。现有方法在扩展到更长的上下文时性能会下降。在本文中，我们提出了一种新的上下文扩展方法，以优化微调和推理效率。我们的方法利用了一个关键观察结果：在频域中，KV缓存的能量分布主要集中在低频分量中。通过过滤掉高频分量，KV缓存可以以最小的信息损失被有效压缩。基于这一洞察，我们提出了一种高效压缩技术FreqKV，该技术在频域中逐步将不断增加的KV缓存压缩到固定大小，适用于微调和推理。FreqKV不引入额外的参数或架构修改。通过最少的微调，LLMs可以学会利用在频域中压缩的有限缓存，并有效地扩展上下文窗口。在各种长上下文语言建模和理解任务中的实验表明了所提出方法的高效性和有效性。

发布时间: 5/2/2025

查看原文

基于缺失模态的3D MRI脑肿瘤分析的多模态遮蔽自编码器预训练

作者: Lucas Robinet, Ahmad Berjaoui, Elizabeth Cohen-Jonathan Moyal

arXiv:2505.00568v1 公告类型：交叉摘要：多模态磁共振成像（MRI）是临床医生在脑肿瘤护理中的首要研究工具，为手术规划、治疗监测和生物标志物识别提供了关键见解。在大型数据集上的预训练已被证明有助于模型学习可迁移的表示，并且在少量标注数据的情况下能够适应。这种行为在医学成像中尤其有价值，因为标注数据通常较少。然而，将这一范式应用于多模态医学数据带来了挑战：大多数现有方法假设所有成像模态在预训练和微调过程中都是可用的。实际上，由于获取问题、专家不可用或针对小型机构内数据集的具体实验设计，缺失的模态经常出现。因此，一种常见的方法是为每种期望的模态组合训练一个独立的模型，这使得过程既资源密集又不适用于临床使用。因此，我们介绍了一种名为BM-MAE的掩模图像建模预训练策略，专门针对多模态MRI数据进行设计。同一个预训练模型可以无障碍地适应任何可用模态的组合，提取丰富的表示，同时捕捉到模态内外的信息。这使得可以在任何子集的模态上进行微调，不需要对架构进行更改，同时仍然受益于在完整模态集合上进行预训练的模型。广泛的经验表明，所提出的预训练策略在一些下游任务中优于或与需要为每个模态子集独立预训练的基线模型保持竞争力，同时在几个下游任务上从头开始训练明显表现更优。此外，它可以快速且高效地重建缺失的模态，突显了其实用价值。代码和训练模型可在以下链接获取：https://github.com/Lucas-rbnt/bmmae

发布时间: 5/2/2025

查看原文

TeLoGraF：通过图编码流匹配的时间逻辑规划

作者: Yue Meng, Chuchu Fan

arXiv:2505.00562v1 Announce Type: cross 摘要: 使用信号时序逻辑（STL）规范学习解决复杂任务对于许多实际应用至关重要。然而，由于缺乏多样化的STL数据集和能够有效提取时序逻辑信息的编码器，大多数前序工作仅考虑固定的或参数化的STL规范。本文中，我们提出了TeLoGraF（Temporal Logic Graph-encoded Flow），这是一种利用图神经网络（GNN）编码器和流匹配来学习通用STL规范解法的方法。我们识别了四种常用的STL模板，并收集了总共200K个带有配对演示的规范。我们在五个不同的模拟环境中进行了广泛的实验，从二维空间中的简单动力学模型到高维7DoF的Franka Panda机器人手臂和Ant四足导航。结果显示，我们的方法在STL满足率上优于其他基线方法。与经典的STL规划算法相比，我们的方法在推理上的速度提高了10至100倍，并且可以在任何系统动力学上工作。此外，我们展示了我们的图编码方法解决复杂STL规范的能力，以及在处理超出分布的STL规范时的鲁棒性。代码可在https://github.com/mengyuest/TeLoGraF获取。

发布时间: 5/2/2025

查看原文

通过量子神经网络进行的学习到学习的量子优化

作者: Kuan-Cheng Chen, Hiromichi Matsuyama, Wei-Hao Huang

arXiv:2505.00561v1 交叉类型文章摘要：量子近似优化算法（QAOA）通过利用浅层量子电路有望解决经典上难以处理的组合优化问题。然而，其性能和可扩展性常常依赖于有效的参数优化，这由于崎岖的能量景观和硬件噪声等原因而变得非平凡。在本文中，我们提出了一种结合了量子神经网络（特别是量子长期短期记忆，QLSTM架构）与QAOA的量子元学习框架。通过在较小的图实例上训练QLSTM优化器，我们的方法能够迅速泛化到更大的、更复杂的问题，大大减少了收敛所需的迭代次数。通过在Max-Cut和Sherrington-Kirkpatrick模型实例上的全面基准测试，我们展示了基于QLSTM的优化器比经典基线收敛更快，且能实现更高的近似比，从而提供了一条通往量化优化可扩展性的稳健途径，特别是在量子无中大（NISQ）时代。

发布时间: 5/2/2025

查看原文

触发幻觉在LLMs中的研究：大规模语言模型中由提示诱发幻觉的定量研究

作者: Makoto Sato

arXiv:2505.00557v1 类型: cross 摘要：大型语言模型（LLMs）中的幻觉在医疗保健、法律等领域构成了日益增长的挑战，这些领域对事实可靠性有着至关重要的要求。尽管在对齐和指令调整方面取得了进展，但LLMs仍然可以生成流畅但本质上不真实的内容。了解支撑这些幻觉的认知动态仍然是一个开放的问题。在这项研究中，我们提出了一种基于提示的框架，以系统地引发和量化幻觉：一种幻觉诱导提示（HIP），它以误导性的方式合成了语义上相距较远的概念（例如，元素周期表和塔罗占卜），以及一种幻觉量化提示（HQP），它评估输出的可信度、信心和一致性。在多种LLM的控制实验中揭示了HIP总是比其无融合对照组产生更不连贯且更多的幻觉反应。这些效果在不同模型之间有所不同，推理导向型的LLM表现出与通用型LLM不同的模式。我们的框架提供了一个可重复的测试平台，用于研究幻觉的脆弱性，并为开发更安全、更具内省性的LLM铺平了道路，这些LLM能够检测并自我调节概念不稳定性。

发布时间: 5/2/2025

查看原文

关于神经网络在生物统计因果性中的机理可解释性的研究

作者: Jean-Baptiste A. Conan

arXiv:2505.00555v1 类别：交叉学科摘要：在生物统计学中，可解释的洞察力对于预测模型始终保持关键性，特别是在评估因果关系时，因为经典的统计学和机器学习方法往往能够提供内在的清晰度。尽管神经网络（NNs）在建模复杂生物数据方面提供了强大的能力，但它们传统的“黑箱”性质在需要高度关注健康的应用中带来了验证和信任的挑战。近期在机理可解释性（MI）方面的进展旨在解读这些网络学到的内部计算。本文探讨了在因果推断的生物统计学背景下将MI技术应用于NNs的方法。我们展示了可以利用MI工具进行以下工作：（1）探究和验证NNs学到的内部表示，例如在靶向最小损失估计（TMLE）这类框架中估计冗余函数；（2）发现并可视化网络处理不同类型输入时所采用的独特计算路径，这可能揭示出网络如何处理混杂因素和治疗手段；以及（3）提供方法学来比较统计学、机器学习和NN模型中学习到的机制和提取的洞察，促进对它们各自在因果生物统计分析中的优势和弱点的更深入理解。

发布时间: 5/2/2025

查看原文