arXiv 论文列表

作者: Ahmad Khalil, Mahmoud Khalil, Alioune Ngom

arXiv:2504.14429v1 宣传类型：跨领域摘要：大型语言模型（LLMs）已经改变了自然语言处理（NLP）任务，但它们遭受幻觉问题，即生成虽然看似合理但事实错误的内容。这一问题也延伸到视频语言模型（VideoLLMs），其中生成的文本描述可能不准确地代表视觉内容，导致多模态幻觉。在本文中，我们针对结合了ResNet视觉编解码器和LLMs的VideoLLM模型中的幻觉问题进行了研究。我们引入了一个两步协议：（1）一种忠实度检测策略，使用修改后的Lynx模型来评估生成的字幕与真实视频参考之间的语义对齐，以及（2）一种使用检索增强生成（RAG）的幻觉缓解策略，其中在推理过程中动态构建了一个临时知识库。通过增强模型ResNetVLLM-2，在外部知识的交叉验证下生成的内容提高了事实一致性。在ActivityNet-QA基准测试上的评估表明，准确率从54.8%提高到65.3%，突显了我们幻觉检测和缓解策略在增强视频语言模型可靠性方面有效性的提升。

发布时间: 4/22/2025

查看原文

优化SIA开发：用户中心设计在Estuary多模态社交互动代理框架中的案例研究

作者: Spencer Lin, Miru Jun, Basem Rizk, Karen Shieh, Scott Fisher, Sharon Mozgai

arXiv:2504.14427v1 类别:交叉学科摘要:本文通过在开发开源多模态框架Estuary的过程中所积累的经验，介绍了一种以用户为中心的设计模型，用于Socially Intelligent Agent (SIA)开发框架。我们利用快速评估过程（RAP）收集了领域内领先研究人员关于SIA开发当前先进状态的看法，以及他们对Estuary如何潜在地填补现有研究缺口的评估。我们通过社区中一位同行研究人员进行的一系列最终用户访谈实现了这一点。我们希望本文的研究成果不仅能帮助Estuary的持续开发，还能指导未来SIA框架和相关技术的发展。

发布时间: 4/22/2025

查看原文

基于RGB-事件的视觉目标跟踪的对抗攻击

作者: Qiang Chen, Xiao Wang, Haowen Wang, Bo Jiang, Lin Zhu, Dawei Zhang, Yonghong Tian, Jin Tang

arXiv:2504.14423v1 跨模态对抗攻击类型：交叉摘要：视觉物体跟踪是计算机视觉和多模态融合领域的关键研究课题。在各种方法中，结合RGB帧和事件流的鲁棒视觉跟踪引起了研究人员的广泛关注。在追求高准确性和效率的同时，探索RGB-事件流跟踪算法的有效对抗攻击和防御方法也很重要，但该领域的研究相对较少。为填补这一空白，本文提出了一种针对RGB-事件流视觉跟踪的跨模态对抗攻击算法。由于事件流具有多种表示形式，且事件体和帧更为常用，本文将重点研究这两种表示形式的深度研究。具体而言，对于RGB-事件体，我们首先通过对抗损失优化扰动，生成RGB帧对抗样本。对于离散事件体表示，我们提出了一种两步攻击策略，首先，在目标区域注入事件体作为初始对抗样本，然后，通过扰动事件体的空间位置进行梯度引导优化。对于基于RGB-事件帧的跟踪，我们通过整合多模态数据的梯度信息来优化跨模态的通用扰动。我们使用三个广泛使用的RGB-事件流跟踪数据集，即COESOT、FE108和VisEvent，对提出的算法进行了评估。大量实验表明，我们的方法在多种数据集（无论是单模态还是多模态场景）中显著降低了跟踪器的性能。源代码将发布在https://github.com/Event-AHU/Adversarial_Attack_Defense

发布时间: 4/22/2025

查看原文

行星作为大脑：面向AIOS服务器的智能站点互联网雏形

作者: Xiang Zhang, Yongfeng Zhang

arXiv:2504.14411v1 Announce Type: cross 摘要：互联网正在经历从“网站互联网”到“代理站点互联网”的历史转变。尽管传统的网站作为信息托管和传播的基础发挥了作用，但一个新的前沿正逐渐形成，其中代理站点成为互联网的核心枢纽。每个代理站点托管一个或多个AI代理，这些代理接收任务、解决这些问题并提供可操作的解决方案，这标志着数字景观的重大转变，并代表了下一代在线生态系统。在此愿景下，AIOS（AI代理操作系统）作为开发、部署和执行AI代理的服务器，是代理站点互联网的基础基础设施。在本文中，我们介绍了AIOS Server，这是一个运行时框架，用于托管代理并促进分散代理之间的全球规模协作。AIOS Server 通过利用Model Context Protocol (MCP) 和 JSON-RPC 来提供一种通信协议，使其能够支持代理与代理或人类与代理之间的交互。每个AIOS节点作为服务器运行，用于托管和执行代理，同时支持点对点协调，不依赖于中心化编排。基于AIOS Server，我们进一步介绍了全球首个实际部署的代理站点互联网（AIOS-IoA），包括AgentHub 用于代理注册和发现，以及AgentChat 用于交互式通信，详情可通过 https://planet.aios.foundation 访问。基于分布式哈希表 (DHT) 和Gossip 协议的代理发现机制充当了代理站点互联网的搜索引擎。本文为构建代理站点互联网（一个新范式，其中自主代理成为网页的一等公民）提供了实际基础。实现代码可在 https://github.com/agiresearch/AIOS.Server 获取，并将于 https://github.com/agiresearch/AIOS 中集成到AIOS主分支。

发布时间: 4/22/2025

查看原文

使用检索增强预训练的神经声学场数据增强

作者: Christopher Ick, Gordon Wichern, Yoshiki Masuyama, Fran\c{c}ois G. Germain, Jonathan Le Roux

arXiv:2504.14409v1 Announce Type: 交叉摘要：本报告详细介绍了MERL提交给2025年ICASSP生成数据增强研讨会的房间冲激响应（RIR）估计系统，该研讨会针对增强RIR数据（任务1）和改进说话人距离估计（任务2）进行了分组。我们首先在包含提供RIR对和几何形状的外部大型数据集上预训练一个基于房间几何形状的神经声场模型。然后，通过使用注册数据，将神经声场模型适应到每个目标房间中，我们根据可利用性，利用提供的房间几何形状或从外部数据集中检索的几何形状实现这一点。最后，我们预测了由任务1指定的每对来源和接收器位置的RIR，并使用这些RIR来训练任务2中的说话人距离估计模型。

发布时间: 4/22/2025

查看原文

ScholarMate: 一种混合初始化工具，用于定性知识工作和信息解释

作者: Runlong Ye, Patrick Yung Kang Lee, Matthew Varona, Oliver Huang, Carolina Nobre

arXiv:2504.14406v1 类型: cross 摘要：从大量文档集合中合成知识是定性研究和知识工作中一个关键但越来越复杂的方面。尽管人工智能提供了自动化潜力，但将其有效整合到以人类为中心的理解流程中仍然具有挑战性。我们介绍了ScholarMate，这是一个旨在通过统一AI辅助与人类监督来增强定性分析的交互式系统。ScholarMate使研究人员能够动态布置和在非线性画布上互动文本片段，利用AI进行主题建议、多层次总结和上下文命名，同时通过溯源到原始文档来确保透明度。初步的试点研究表明，用户认为这种混合主动的方法很有价值，发现AI建议与直接操作之间的平衡对于保持解释性和信任至关重要。通过一个案例研究分析24篇论文，进一步展示了该系统的功能。通过平衡自动化与人类控制，ScholarMate提高了效率并支持了解释性，为知识工作中常见的理解任务提供了有价值的、有助于提高生产力的人机协作方法。

发布时间: 4/22/2025

查看原文

海德拉：一种提升视觉语言模型对抗鲁棒性和减轻幻觉的代理推理方法

arXiv:2504.14395v1 Announce Type: cross 摘要：为了开发可信赖的视觉-语言模型（VLMs），解决对抗鲁棒性和幻觉缓解这两个问题至关重要，这两个问题都直接影响到高风险应用（如国防和医疗保健）中的事实准确性。现有方法主要集中在对抗防御或事后幻觉纠正上，存在统一鲁棒性策略的缺口。我们提出了**Hydra**，这是一种适应性的代理框架，通过迭代推理、结构化批评和跨模型验证来增强插件VLMs，从而提高对对抗扰动的抵抗力以及模型固有的错误。Hydra 使用行动-批评循环，它会检索并批评视觉信息，利用链式思考（CoT）和上下文学习（ICL）技术动态优化输出。与静态事后纠正方法不同，Hydra 能适应对抗操纵和模型固有的错误，使其能够抵御恶意扰动和与幻觉相关的信息不准确。我们在四个VLMs、三个幻觉基准、两种对抗攻击策略和两种对抗防御方法上评估了Hydra，在干净和对抗输入上评估了其性能。结果显示，Hydra 在插件VLMs和最先进的去幻觉方法上都超越了它们，即使没有明确的对抗防御，也展示了增强的鲁棒性和事实一致性。通过结合对抗抵抗和幻觉缓解，Hydra 提供了一种可扩展的、无需训练的解决方案，用于提高VLMs在实际应用中的可靠性。

发布时间: 4/22/2025

查看原文

LOOPE: 可学习的最优patches顺序嵌入在视觉变换器中

作者: Md Abtahi Majeed Chowdhury, Md Rifat Ur Rahman, Akil Ahmad Taki

arXiv:2504.14386v1 交叉公告类型摘要：位置嵌入（Positional Embeddings, PE）在视觉变换器（Vision Transformers, ViTs）中起到了关键作用，通过提供由于自注意力的置换不变性性质而丢失的空间信息。虽然绝对位置嵌入（Absolute Positional Embeddings, APE）已经在理论上显示了相对于相对位置嵌入（Relative Positional Embeddings, RPE）的优势，尤其是在正弦函数能够保持诸如单调性和平移不变性等空间归纳偏置方面，但当将2D网格映射到1D序列时，一个根本性的挑战出现了。现有的方法大多忽略了或从未探索过位置嵌入中块顺序的影响。为了解决这个问题，我们提出了LOOPE，这是一种可学习的块顺序方法，其通过优化给定频率下的空间表示，提供了一种有原则的方法来优化块顺序。实验证明，我们的位置嵌入显著提高了各种ViT架构的分类准确率。为了严格评估位置嵌入的有效性，我们引入了“Three Cell Experiment”这一新颖的基准测试框架，用于评估位置嵌入在不同ViT架构中保留相对和绝对位置信息的能力。不同于标准评估通常报告的4%到6%的性能差距，我们的方法揭示了高达30%到35%的显著差异，提供了一种更为敏感的诊断工具来衡量位置嵌入的效果。我们的实验分析证实，提出的LOOPE在保留相对和绝对位置信息方面表现出增强的有效性。

发布时间: 4/22/2025

查看原文

基于块状不确定性学习增强的结构表示以用于海底映射

作者: Jose Marie Antonio Minoza

arXiv:2504.14372v1 声明类型：交叉摘要：精确的海洋建模和沿岸灾害预测依赖于高分辨率的水深数据；然而，当前全球的数据库对于精确的数值模拟来说过于粗糙。虽然最近的深度学习进展提高了地球观测数据的分辨率，但现有方法在生成详细的海底地图时遇到了独特的挑战，特别是在保持物理结构一致性和量化不确定性方面。本文提出了一种新颖的不确定性意识机制，使用空间块来基于块式齐性预测高效捕获局部水深复杂性。通过结合这种方法和不确定量化框架，利用向量量化变分自编码器（VQ-VAE）架构，结构化离散的潜在表示保留了地形特征，同时提供了空间适应性的置信度估计。在特征明确的地区，不确定性带宽度较小，而复杂海底结构区的不确定性边界适当地扩大，块式设计根据局部水深复杂性适配不确定性估计。与传统技术相比，在多个海洋区域的实验结果表明，这两种方法在重建质量和不确定性估计可靠性方面都显著提高了。该框架通过保持结构完整性和提供空间适应性的不确定性估计，提高了水深重建的可靠性，为更稳健的气候建模和沿岸灾害评估铺平了道路。

发布时间: 4/22/2025

查看原文

多样化的提示：通过MAP-Elites照亮大规模语言模型的提示空间

作者: Gabriel Machado Santos, Rita Maria da Silva Julia, Marcelo Zanchetta do Nascimento

arXiv:2504.14367v1 宣告类型: cross 摘要: 提示工程对于优化大型语言模型（LLMs）至关重要，但提示结构与任务性能之间的联系尚未得到充分探索。本文介绍了一种结合上下文无关文法（CFG）和MAP-Elites算法的进化方法，以系统地探索提示空间。我们的方法优先考虑质量和多样性，生成高性能且结构多样的提示，并通过变化诸如示例数量（shot）和推理深度等因素来分析它们与多种任务的契合度。通过系统地映射表型空间，我们揭示了结构变化如何影响LLM性能，为任务特定和适应性强的提示设计提供了可行的见解。在多个LLM上对七个BigBench Lite任务进行评估，我们的结果强调了质量和多样性的关键交互作用，提高了LLM的有效性和多功能性。

发布时间: 4/22/2025

查看原文