arXiv 论文列表

作者: Hao Yin, Gunagzong Si, Zilei Wang

arXiv:2504.10020v1 公告类型: cross 摘要：对比解码策略在减少多模态大型语言模型（MLLMs）中的幻觉现象方面被广泛应用于减少幻觉。这些方法通过构造对比样本来诱发幻觉，然后在输出分布中抑制它们。然而，本文表明，此类方法无法有效地解决幻觉问题。POPE基准上观察到的性能提升主要受到两个误导性因素的驱动：（1）对模型输出分布的粗略、单向调整和（2）自适应合理性约束，这将采样策略简化为贪婪搜索。为进一步阐明这些问题，我们引入了一系列虚假改进方法，并将它们的性能与对比解码技术进行了比较。实验结果揭示，对比解码观察到的性能提升与减轻幻觉这一预期目标完全无关。我们的发现挑战了对比解码策略有效性的常见假设，并为开发真正有效的减轻MLLMs中幻觉的方法铺平了道路。

发布时间: 4/15/2025

查看原文

基于RGB事件的行人属性识别：一个基准数据集和一种不对称RWKV融合框架

作者: Xiao Wang, Haiyang Wang, Shiao Wang, Qiang Chen, Jiandong Jin, Haoyu Song, Bo Jiang, Chenglong Li

arXiv:2504.10018v1 Announce Type: cross 摘要：现有的行人属性识别方法通常基于RGB帧摄像头开发。然而，这些方法受到RGB摄像头限制，如对光照条件敏感和运动模糊，这限制了它们的表现。此外，当前的属性识别主要集中在分析行人的外部外观和着装上，缺乏对情感维度的探讨。在本文中，我们重新审视了这些问题，并通过借鉴事件摄像头在低光、高速和低功耗方面的优点，提出了一种新的多模态RGB-事件属性识别任务。具体来说，我们引入了第一个大规模的多模态行人属性识别数据集，称为EventPAR，其中包括10万个配对的RGB-事件样本，涵盖了与外观和六种人类情感相关的50个属性，多种场景和不同季节。通过对此数据集重新训练和评估主流的行人属性识别模型，我们建立了全面的基准，并为未来的研究奠定了坚实的数据和算法基础。此外，我们提出了一种基于RWKV的多模态行人属性识别框架，该框架包括一个RWKV视觉编码器和一个不对称的RWKV融合模块。我们在提出的数据集以及两个模拟数据集（MARS-Attribute和DukeMTMC-VID-Attribute）上进行了广泛的实验，取得了目前的最优结果。相关源代码和数据集将在 https://github.com/Event-AHU/OpenPAR 发布。

发布时间: 4/15/2025

查看原文

气象引导的模态解耦空时网络空气质量预测

作者: Hang Yin, Yan-Ming Zhang, Jian Xu, Jian-Long Chang, Yin Li, Cheng-Lin Liu

arXiv:2504.10014v1 交叉类型: 摘要：空气质量预测在公共健康和环境保护中发挥着关键作用。准确的空气质量预测是一项复杂的多变量时空问题，涉及到时间模式间的交互、污染物间的关联性、空间站点的依赖性，尤其是气象条件对污染物扩散和化学转化的控制作用。现有的研究低估了大气条件在空气质量预测中的关键作用，忽视了全面利用气象数据，从而损害了空气质量与气象数据的动态相互依赖关系的建模能力。为了解决这一问题，我们提出了MDSTNet，这是一种编码器-解码器框架，明确地将空气质量观测和大气条件建模为不同的模态，并结合多气压级气象数据和天气预报来捕捉大气污染依赖性以便进行预测。同时，我们构建了ChinaAirNet，这是第一个结合空气质量记录和多气压级气象观测数据的全国性数据集。在ChinaAirNet上的实验结果表明MDSTNet的优越性，相较于当前最先进的模型，显著减少了48小时预测误差17.54%。源代码和数据集将于GitHub上提供。

发布时间: 4/15/2025

查看原文

基于会话的推荐系统：用户兴趣作为潜在空间中的随机过程

作者: Klaudia Balcer, Piotr Lipinski

arXiv:2504.10005v1 交叉类型: 摘要: 本文联合解决了会话推荐系统中的数据不确定性、流行性偏差和曝光偏差问题。我们研究了这种偏差在项目嵌入和推荐中的症状。我们提出将用户兴趣视为潜在空间中的随机过程，并提供一种通用模型来实现这一数学概念。所提出的时间随机性组件包括：通过嵌入均匀性的正则化来修正项目嵌入的偏差，从会话前缀建模密集用户兴趣，并在数据中引入假目标以模拟扩展的曝光。我们在两个流行的基准数据集Diginetica和YooChoose 1/64，以及具有不同受欢迎项目比例的YooChoose数据集的几种修改版本上进行了计算实验。实验结果表明，所提出的方法能够缓解所提到的挑战。

发布时间: 4/15/2025

查看原文

我们真的需要精选的恶意数据来实现多模态大规模语言模型的安全对齐吗？

作者: Yanbo Wang, Jiyang Guan, Jian Liang, Ran He

arXiv:2504.10000v1 宣告类型: cross 摘要: 多模态大型语言模型（MLLMs）取得了显著进展，但其安全性对齐仍有限制。通常，当前的开源MLLMs依赖于其语言模块继承的安全性对齐来避免有害生成。然而，缺乏专门针对多模态输入的安全措施导致了对齐差距，使MLLMs对视觉领域的攻击，如文本排版操控变得脆弱。当前的方法通过利用精心设计的安全数据集来增强模型的防御能力，但这些高质量数据集中的特定知识或模式仍不清楚。通过对比实验，我们发现对齐差距主要源自数据分布偏差，而不是图像内容、响应质量或数据集的对比行为对提升多模态安全性贡献甚微。为了进一步调查这一点并确定提高MLLM安全性的重要因素，我们建议在一小部分良性指令遵循数据上微调MLLMs，并用简单的明确拒绝句替换响应。实验表明，在无需收集高质量恶意数据的情况下，只要微调集包含一定比例的拒绝数据，就可以显著提高模型安全性，这表明多模态预训练或指令微调期间安全性对齐并未丢失，而是被掩盖了。简单纠正潜在的数据偏差即可在视觉领域缩小安全性差距。

发布时间: 4/15/2025

查看原文

基于度量的类激活映射合成

作者: Alejandro Luque-Cerpa, Elizabeth Polgreen, Ajitha Rajan, Hazem Torfah

arXiv:2504.09998v1 宣告类型: cross 摘要: 类激活映射 (CAM) 是一种广泛使用的可解释性方法，用于解释卷积神经网络 (CNN) 的行为。这些方法生成热图，突出显示输入中最相关的部分，以产生 CNN 输出。已经提出了各种 CAM 方法，每种方法通过不同的表达式来生成热图。一般来说，用户寻找能够反映 CNN 不同功能方面特性的热图。这些特性可能包括与真实标签的相似性、鲁棒性、协变性等。虽然现有的 CAM 方法在其表达式中隐式地编码了一些这些特性，但它们不支持根据用户的意图或领域知识来可变地生成热图。在这篇论文中，我们通过引入 SyCAM——一种基于度量的 CAM 表达式合成方法来解决这一局限。给定一个预定义的可解释性度量，SyCAM 自动生成针对该度量优化的 CAM 表达式。我们特别探索了 SyCAM 的语法引导合成实例，其中 CAM 表达式根据预定义的语法约束和给定的度量来生成。使用几个已建立的可解释性度量，我们展示了我们的方法在生成目标热图方面的有效性和灵活性。我们将在三个知名的模型——ResNet50、VGG16 和 VGG19 上将 SyCAM 与其他知名的 CAM 方法进行对比。

发布时间: 4/15/2025

查看原文

GenTe: 生成现实中的地形以实现通用腿足机器人运动控制

作者: Hanwen Wan, Mengkang Li, Donghao Wu, Yebin Zhong, Yixuan Deng, Zhenglong Sun, Xiaoqiang Ji

arXiv:2504.09997v1 Announce Type: cross 摘要：开发能够穿越多样现实地形的双足机器人是一项基本的机器人挑战，现有的使用预定义高度图和静态环境的方法无法解决结构化景观的复杂性。为了弥补这一差距，我们提出了GenTe，一个生成物理上现实且可适应地形的框架，用于训练通用的运动策略。GenTe 构建了一个包含几何和物理地形的原子地形库，使得强化学习（RL）为基础的运动策略能够进行渐进学习。通过利用函数调用技术和视觉语言模型（VLM）的推理能力，GenTe 能从文本和图形输入生成复杂且情景相关的地形。该框架引入了对地形交互的真实力建模，捕捉了诸如土壤沉陷和水动力阻力等效果。据我们所知，GenTe 是第一个系统性生成腿部机器人运动控制模拟环境的框架。此外，我们还引入了一个包含100个生成地形的基准测试。实验表明，在双足机器人运动中具有更好的泛化能力和鲁棒性。

发布时间: 4/15/2025

查看原文

通过图像中心多标注数据增强医疗全科基础模型的多任务学习能力

作者: Xun Zhu, Fanbin Mo, Zheng Zhang, Jiaxi Wang, Yiming Shi, Ming Wu, Chuang Zhang, Miao Li, Ji Wu

arXiv:2504.09967v1 交叉公告类型：cross 摘要：医学通才基础模型的出现已经彻底改变了传统的针对特定任务的模型开发范式，通过在大规模医疗数据集上进行联合训练，旨在更好地处理多种任务。然而，最近的进展更倾向于简单的数据规模扩大或架构组件增强，而忽视了从数据为中心的角度重新审视多任务学习。关键的是，简单地聚合现有的数据资源会导致去中心化的图像任务对齐，无法培养全面的图像理解能力或与多维度图像解释的临床需求对齐。在本文中，我们介绍了图像为中心的多注释X射线数据集（IMAX），这是首次从数据构建层面增强医学多模态大型语言模型（MLLMs）的多任务学习能力的尝试。具体而言，IMAX具有的以下特征：1）高质量的数据整理。包含了适用于七种不同医疗任务的超过354,000个条目。2）以图像为中心的密集注释。每幅X射线图像平均关联4.10个任务和7.46个训练条目，确保每幅图像的多任务表示丰富性。与通用去中心化的多注释X射线数据集（DMAX）相比，IMAX在七个开源的最新医学MLLMs上的一致显示了从3.20%到21.05%的显著多任务平均性能提升。此外，我们研究了IMAX和DMAX训练过程中的统计模式差异，探索优化动态与多任务性能之间的潜在关联。最后，利用IMAX数据构建的核心理念，我们提出了基于优化的DMAX的训练策略，以便在实际场景中缓解获得高质量IMAX数据的困境。

发布时间: 4/15/2025

查看原文

面向无偏联邦图学习：从标签和拓扑视角出发

作者: Zhengyu Wu, Boyang Pang, Xunkai Li, Yinlin Zhu, Daohan Su, Bowen Fan, Rong-Hua Li, Guoren Wang, Chenghu Zhou

arXiv:2504.09963v1 公告类型：交叉摘要：联邦图学习（FGL）能够在不共享原始数据的情况下实现图神经网络的隐私保护分布式训练。在其方法中，子图-FL已成为主导范式，大多数研究都致力于提高整体节点分类准确率。然而，这些方法往往由于节点特征、标签和图结构的复杂性而忽视了公平性。特别是，它们在具有不利属性的节点上表现较差，比如在子图中属于少数类节点或具有异质联系（邻居标签相似度低或特征误导）。这揭示了一个关键问题：高准确率可能会掩盖结构性或语义上被边缘化的节点上的性能下降。为了应对这一问题，我们提倡两个公平目标：（1）通过类别公平性来改进少数类节点的表示；（2）通过拓扑感知公平性来减轻异质联系带来的拓扑偏见。我们提出了FairFGL，一种通过精細图挖掘和协作学习增强公平性的新颖框架。在客户端，历史保持模块防止过度拟合于主导的本地类别，而多数对齐模块细调异质多数类节点的表示。梯度修改模块将结构有利的客户端的少数类知识转移，以提高公平性。在服务器端，FairFGL仅上传最受影响的参数子集以减少通信成本，并更好地反映局部分布。基于集群的聚合策略解决了冲突更新并遏制了全球多数类主导。在八个基准测试中的广泛评估显示，FairFGL在少数群体性能上显著提高，与最先进的基线相比，宏观F1值提高了22.62个百分点，并增强了收敛性。

发布时间: 4/15/2025

查看原文

隐私遇上了可解释性：在以大语言模型赋能的科学中管理保密数据和透明政策

作者: Yashothara Shanmugarasa, Shidong Pan, Ming Ding, Dehai Zhao, Thierry Rakotoarivelo

arXiv:2504.09961v1 类型：跨领域摘要：随着大型语言模型（LLMs）在科学工作流中的逐渐普及，人们对保密数据的保密性和伦理处理问题的担忧也随之增加。本文探讨了通过LLM支持的科学工具的数据外泄风险，这些工具可能会无意中泄露科学家的知识产权、专有数据等敏感信息。我们提出了一种名为“DataShield”的框架，旨在检测敏感数据外泄、总结隐私政策并可视化数据流，从而确保与组织政策和程序的契合。我们的方法旨在向科学家提供数据处理实践的信息，使他们能够做出知情决策并保护敏感信息。目前正在对科学家进行持续的用户研究，以评估该框架的易用性、可信度及其在应对实际隐私挑战方面的有效性。

发布时间: 4/15/2025

查看原文