arXiv:2504.11045v1 类型: cross
摘要: 随着自主系统在日常生活中越来越普遍,确保其安全性变得至关重要。控制屏障函数(CBFs)已经成为了确保安全的有效工具;然而,为特定应用手动设计它们仍然是一个重大挑战。随着深度学习技术的发展,最近的研究已经探索了使用神经网络合成CBFs的方法——通常被称为神经CBFs。本文介绍了一类新的神经CBFs,该类方法通过在安全性背景下引入Zubov的偏微分方程(PDE)启发的神经网络框架,提供了一种可扩展的方法来合成适用于高维系统的神经CBFs。此外,通过使用互惠CBFs而非零CBFs,所提出的方法允许用户定义灵活的安全区域。为了验证该方法的有效性,我们分别在三个不同的系统上进行了案例研究:倒立摆、自主地面导航以及含有障碍物的空中导航环境。
arXiv:2504.11038v1 Announce Type: 异常
摘要:在典型的多模态任务中,如视觉问答(VQA),针对特定图像和问题的对抗攻击可能导致大型视觉语言模型(LVLMs)提供错误的答案。然而,单个图像通常与多个问题相关联,即使对于特定问题攻击的对抗图像,LVLMs也可能正确回答其他问题。为了解决这个问题,我们引入了查询无感知的视觉攻击(QAVA),其目标是生成能够对未指定和未知问题产生错误响应的鲁棒对抗样本。与传统的专注于特定图像和问题的对抗攻击相比,QAVA在未知问题场景下对图像的攻击效果和效率有了显著提升,达到了与已知目标问题攻击相当的性能。我们的研究扩展了在实际场景中LVLMs视觉对抗攻击的范围,揭示了先前未被注意到的漏洞,特别是在视觉对抗威胁的背景下。代码可在 https://github.com/btzyd/qava 获取。
arXiv:2504.11020v1 宣告类型: cross
摘要:在今天的人工智能(AI)已经成为关键角色的社会中,用户信任的问题已经引起了广泛关注。AI系统在高风险领域中的使用往往导致用户要么对其过度不信任,可能导致不当的依赖,要么过度信任,导致过度遵从。因此,用户必须维持适当的信任水平。以往的研究表明,AI系统提供的解释可以增强用户对何时信任或不信任系统的理解。然而,不同解释形式的呈现方式在促进适当信任方面的效用仍然有待探索,尤其是在高风险领域。因此,本研究探讨了不同解释类型(文本、视觉和混合形式)以及用户专业程度(退休警察和普通用户)对建立基于AI的预测警务适当信任的影响。虽然我们观察到,混合形式的解释增加了专家用户对AI的主观信任,但它并未改善决策质量。此外,没有任何形式的解释能够建立适当的信任。本研究的发现强调了重新评估使用解释以建立适当信任的重要性,特别是在系统的使用存在疑问的情况下。最后,我们基于研究结果总结了潜在的挑战和政策建议,以便为高风险基于AI的系统设计适当的信任。
arXiv:2504.11014v1 类别:交叉领域
摘要:计算机视觉领域的一个新兴趋势是在开发能够同时处理多种多样化任务的通用模型。这种通用性通常需要在多领域数据集上进行联合训练以确保有效的泛化。然而,单目3D物体检测在多领域训练中面临着独特的挑战,主要是由于缺乏带有准确3D地面真值标签的数据集,特别是在典型的道路自动驾驶环境下之外。为了解决这一挑战,我们引入了一种新颖的弱监督框架,利用伪标签。当前的预训练模型往往难以在非道路环境中准确检测行人,这是由于数据集固有的偏差。与通用的基于图像的2D物体检测模型不同,实现类似程度的泛化在单目3D检测方面仍是一个未被充分探索的领域。在本文中,我们提出了GATE3D,一种专门用于通用单目3D物体检测的新颖框架,通过弱监督实现。GATE3D通过在2D和3D预测之间使用一致性损失有效地填补了领域差距。令人remarkably的是,我们的模型在Kitti基准测试和我们收集的一个用于评估我们框架泛化能力的室内办公室数据集上都取得了竞争力的表现。我们的结果表明,通过有效的预训练策略,GATE3D能够显著加速有限标注数据的学习,突显了其在机器人、增强现实和虚拟现实应用中的广泛影响。项目页面:https://ies0411.github.io/GATE3D/
arXiv:2504.11011v1 宣布类型: cross
摘要:互联网上存在大量的低质量内容,但用户期望网络搜索引擎能够提供高质量的相关结果。大量低质量页面的存在可能会对检索和爬虫过程产生负面影响,浪费在这些文档上的资源。因此,搜索引擎可以从利用有效质量估计方法的技术中大大受益,以减轻这些负面影响。网页的质量评分方法对于网络搜索系统中的许多典型过程(包括静态索引修剪、索引分层和爬虫)都很有用。在 Chang 等人~\cite{chang2024neural} 的工作基础上,他们提出了使用神经估计器来评估静态索引的质量,我们在此基础上扩展了他们的方法,并将他们的神经质量评分器应用于评估爬虫优先级任务中网页的语义质量。在我们的实验分析中,我们发现优先考虑语义质量高的页面可以改善下游搜索效果。我们的软件贡献在于一个 Docker 容器,它可以为给定的网页计算一个有效的质量评分,从而使质量评分器能够轻松地被纳入和用于网络搜索系统中的其他组件。
arXiv:2504.11008v1 声明类型: cross
摘要:尽管在像素级医学图像感知方面取得了显著进展,但现有方法要么局限于特定任务,要么严重依赖于准确的边界框或文本标签作为输入提示。然而,输入所需医学知识对普通公众来说是一个巨大的障碍,极大地降低了这些方法的通用性。与这些领域专用的辅助信息相比,普通用户更倾向于依赖需要逻辑推理的口头查询。在本文中,我们介绍了一个新颖的医学视觉任务:医学推理分割与检测(MedSD),其目标是对医学图像中的隐含查询进行理解,并生成相应的分割掩码和目标对象的边界框。为了完成这一任务,我们首先引入了一个多视角、逻辑驱动的医学推理分割与检测(MLMR-SD)数据集,该数据集包含了大量的医学实体目标及其相应的推理。此外,我们提出了一个名为MediSee的有效基线模型,专门用于医学推理分割与检测。实验结果表明,提出的模型可以有效地解决MedSD中的隐含口语查询,并优于传统的医学指示分割方法。
arXiv:2504.11004v1 类型:交叉领域
摘要:大型语言模型(LLMs)在各种任务中表现出色,部分原因在于先进的提示技术。然而,这些技术通常需要较长的提示,这增加了计算成本,并且由于LLMs的有限上下文窗口,可能会妨碍其性能。尽管提示压缩是一种直接的解决方案,但现有方法面临着保留关键信息、适应上下文变化以及在不同任务中保持有效性的挑战。为了应对这些问题,我们提出了一种任务无关的方法,称为动态压缩提示(LLM-DCP)。我们的方法在尽可能保留性能的同时减少了提示令牌的数量。我们将提示压缩建模为马尔可夫决策过程(MDP),使得DCP-Agent能够通过适应动态上下文并保留关键内容来顺序删除冗余令牌。我们为训练DCP-Agent开发了一个奖励函数,该函数平衡了压缩率、LLM输出的质量以及保留关键信息的关系。这使得在无需外部黑盒LLM的情况下也能实现提示令牌的减少。借鉴课程学习中逐步增加难度的方法,我们引入了一种分层提示压缩(HPC)训练策略,这种策略逐步增加压缩难度,使DCP-Agent学习一种有效的压缩方法,以保持信息完整性。实验表明,我们的方法在更高的压缩率下优于现有技术。我们的方法的代码可以在https://github.com/Fhujinwu/DCP获取。
arXiv:2504.10995v1 类型: cross
摘要: 组合图像检索(CIR)使用结合参考图像和描述所需修改的文本的多模态查询来检索目标图像。主要挑战在于有效地融合这种视觉和文本信息。当前的跨模态特征融合方法在意图解释方面存在固有的偏向。这些方法倾向于在视觉主导融合中过分强调参考图像特征,或者在通过图像到文本转换实现的文本主导融合中过分强调文本修改意图。这种不平衡的表示往往未能准确捕捉和反映用户在检索结果中的实际搜索意图。为了解决这一挑战,我们提出了一种名为TMCIR的新框架,通过两个关键创新推进了组合图像检索:1)意图感知跨模态对齐。我们首先利用从参考图像和文本描述通过扩散模型合成的反映意图的伪目标图像,对比性地微调CLIP编码器。这一步增强了编码器捕捉文本描述中细微意图的能力。2)自适应令牌融合。我们进一步通过将自适应令牌融合特征与目标图像进行对比性地微调所有编码器。这一机制在对比学习管道中动态平衡视觉和文本表示,优化组合特征以提高检索效果。在Fashion-IQ和CIRR数据集上的广泛实验表明,TMCIR显著优于现有方法,尤其是在捕捉用户的细微意图方面表现突出。
arXiv:2504.10983v1 交叉通告类型:跨学科
摘要:设计具有所需功能的蛋白质序列是蛋白质工程中的基本任务。深度生成方法,如自回归模型和扩散模型,极大地加速了新型蛋白质序列的发现。然而,这些方法主要关注局部或浅层残差语义,并且存在推理效率低、模型空间大和训练成本高的问题。为了解决这些挑战,我们引入了ProtFlow,这是一个基于蛋白质语言模型语义有意义的潜在空间衍生嵌入的快速流匹配蛋白质序列设计框架。通过压缩和平滑潜在空间,ProtFlow在有限的计算资源下提高了性能。利用重流技术,ProtFlow实现了高质量的一步序列生成。此外,我们还开发了一套联合设计管道,用于多链蛋白质的设计场景。我们在包括通用肽、长链蛋白质、抗菌肽和抗体在内的多种蛋白质设计任务中评估了ProtFlow。实验结果表明,ProtFlow在这些应用中优于特定任务的方法,突显了其在计算蛋白质序列设计和分析中的潜力和广泛适用性。
arXiv:2504.10982v1 交叉类型公告
摘要:大型语言模型(LLMs)在医学问答方面表现良好,但由于隐私约束限制了像GPT-4这样的商业模型在临床环境中的使用,它们在日本语环境中的效果受到限制。因此,最近的努力集中在对开源LLM进行指令调优,尽管将它们与检索增强生成(RAG)结合使用的潜力仍被低估。为了解决这一差距,我们首次探索了一种基于知识图谱(KG)的RAG框架,用于日本医疗问答的小规模开源LLM。实验结果表明,基于知识图谱的RAG对于使用小规模开源LLM的日语医疗问答仅有有限的影响。进一步的案例研究表明,RAG的有效性对检索到的外部内容的质量和相关性敏感。这些发现为应用RAG在日本医疗问答中的挑战和潜力提供了有价值的见解,同时也为其他低资源语言提供了参考。