arXiv 论文列表

作者: Zhicong Wu, Hongbin Xu, Gang Xu, Ping Nie, Zhixin Yan, Jinkai Zheng, Liangqiong Qu, Ming Li, Liqiang Nie

arXiv:2504.09588v1 跨场景公告类型：交叉摘要：通用高斯斑点技术的最新进展通过利用前馈高斯斑点模型，从稀疏输入视图中实现了稳健的3D重建，并实现了跨场景的优异泛化能力。然而，尽管许多方法专注于几何一致性，它们通常忽略了文本驱动指导在增强语义理解方面的潜力，这对于在复杂场景中准确重建精细细节至关重要。为了弥补这一局限，我们提出了TextSplat——第一个文本驱动的通用高斯斑点框架。通过采用文本引导的多种语义线索融合，我们的框架学习了稳健的多模态特征表示，从而提高几何和语义信息的对齐，生成高保真的3D重建。具体而言，我们的框架使用三个并行模块来获取互补的表示：扩散先验深度估计器用于准确的深度信息、语义意识分割网络用于详细的语义信息，以及多视图交互网络用于细化的跨视图特征。然后，在文本引导的语义融合模块中，这些表示通过基于文本引导和注意力机制的特征聚合机制进行集成，结果是富含详细语义线索的增强3D高斯参数。在各种基准数据集上的实验结果表明，与现有方法相比，在多个评估指标上具有更好的性能，验证了我们框架的有效性。代码将公开可用。

发布时间: 4/15/2025

查看原文

AirVista-II：一种用于动态场景语义理解的自主系统，面向实体无人机

作者: Fei Lin, Yonglin Tian, Tengchao Zhang, Jun Huang, Sangtian Guan, Fei-Yue Wang

arXiv:2504.09583v1 声称类型: 交叉摘要：无人驾驶飞行器（UAV）在物流运输和灾难响应等动态环境中越来越重要。然而，当前的任务往往依赖于人类操作员来监控空中视频并做出操作决策。这种人机协作模式在效率和适应性方面存在显著的局限性。在本文中，我们提出了AirVista-II——一种端到端的自主系统，旨在使具身无人机能够在动态场景中实现通用语义理解和推理。该系统集成了基于代理的任务识别和调度、多模态感知机制以及针对各种时间场景量身定制的关键帧提取策略，能够高效地捕捉关键场景信息。实验结果表明，在零样本设置下，提出的系统在多样化的基于UAV的动态场景中实现了高质量的语义理解。

发布时间: 4/15/2025

查看原文

一个模拟-启发式双重过程模型用于直觉物理

作者: Shiqian Li, Yuxi Ma, Jiajun Yan, Bo Dai, Yujia Peng, Chi Zhang, Yixin Zhu

arXiv:2504.09546v1 类型: cross 摘要：人类在物理推理中心理模拟的作用得到了广泛的认可，但心理模拟是否在不同仿真成本的情境下被广泛使用，以及其使用边界在哪里仍不清晰。我们通过一个倒水实验，发现当预测倒水角度时存在两种不同的错误模式，这些错误模式由模拟时间决定。在简单的情景中，心理模拟准确地反映了人类的判断，但在模拟时间超过一定边界时，线性启发式模型更好地匹配了人类的预测。受这些观察的启发，我们提出了双重过程框架——模拟-启发式模型(SHM)，其中直觉物理在短时间模拟时使用模拟，但在模拟变得昂贵时切换到启发式方法。通过将之前被视为独立的计算方法整合到一个统一模型中，SHM 定量地捕捉了它们的切换机制。SHM 更精确地符合人类行为，并展示了在不同情境中一致的预测性能，推进了我们对直觉物理推理适应性的理解。

发布时间: 4/15/2025

查看原文

基于多模态基础模型的体态行动链推理在类人搬运操作中的应用

作者: Yu Hao, Geeta Chandra Raju Bethala, Niraj Pudasaini, Hao Huang, Shuaihang Yuan, Congcong Wen, Baoru Huang, Anh Nguyen, Yi Fang

arXiv:2504.09532v1 Announce Type: cross 摘要：使类人机器人能够在复杂、非结构化的环境中自主执行移动操作任务提出了重大挑战。这要求机器人具备规划长时间跨度动作的能力，并借助多模态方式弥合高层次规划与实际任务执行之间的差距。近期在多模态基础模型方面的进展展示了在增强规划和推理能力方面的巨大潜力，尤其是在理解和处理用于机器人控制任务的语义信息方面。在本文中，我们提出了一种基于基础模型的新型框架，该框架将基于体装嵌系列动作推理的方法应用于从文本指令自主规划类人移动操作任务中的动作。我们的方法整合了类人特有的系列思考方法，包括详细的功能分析和身体动作分析，这将任务分解为一系列移动和操作动作。此外，我们还结合基于观察和目标物体特性的空间推理，以有效地导航目标位置可能未见或被遮挡的情况。通过在真实环境中进行物体重新排列、操作和移动操作任务的严格实验设置，我们评估了我们方法在上下半身控制解耦方面的效果，并展示了机器人动作推理策略在理解人类指令方面的有效性。

发布时间: 4/15/2025

查看原文

新数据如何渗透LLM知识以及如何稀释它

作者: Chen Sun, Renat Aksitov, Andrey Zhmoginov, Nolan Andrew Miller, Max Vladymyrov, Ulrich Rueckert, Been Kim, Mark Sandler

arXiv:2504.09522v1 交叉类型: cross 摘要: 大型语言模型通过梯度更新的累积学习并不断学习，但新的信息片段如何影响现有知识，导致有益的泛化和问题性的幻觉，目前仍理解不足。我们展示了当学习新信息时，LLMs表现出一种“预处理”效果：学习一个新的事实可能会导致模型在不相关的上下文中误用这些知识。为了系统地研究这一现象，我们引入了“奇特”这一精心编纂的数据集，包含1320个多样化的文本样本，旨在探究新知识如何渗透到LLM现有的知识库中。通过使用这一数据集，我们展示了学习新信息后的预处理程度可以通过测量学习前关键词的token概率来预测。这种关系在不同的模型架构（PALM-2、Gemma、Llama）、规模和训练阶段中都表现出高度的稳健性。最后，我们开发了两种新的方法来调节新知识对现有模型行为的影响：(1) 一种“跳板”文本增强策略和(2) 一种“忽略-k”更新修剪方法。这些方法通过减少50-95%的不希望出现的预处理效果，同时保留模型学习新信息的能力。我们的研究结果为我们如何理解LLMs的学习提供了实证见解，并提供了改进语言模型知识插入特异性的实用工具。更多资料: https://sunchipsster1.github.io/projects/outlandish/

发布时间: 4/15/2025

查看原文

使用贝叶斯网络结构学习解码Hatrick足球经理游戏的机制以实现最优决策

作者: Anthony C. Constantinou, Nicholas Higgins, Neville K. Kitson

arXiv:2504.09499v1 宣告类型：交叉摘要：Hattrick 是一个基于网络的概率足球经理游戏，拥有超过 20 万名用户，在国家和国际层面上竞争桂冠。该游戏于 1997 年在瑞典作为一项硕士项目的一部分推出，其缓慢的游戏节奏培养了一个忠诚的社区，许多用户几十年来一直保持活跃。Hattrick 的游戏引擎机制部分是隐藏的，用户在过去几年中试图通过逐步成功地破译这些机制。基于规则的、统计学的和机器学习模型已开发出来以辅助这一努力，并被该社区广泛使用。然而，这些模型或工具尚未在科学文献中正式描述或评估。本研究是首次使用结构学习技术和贝叶斯网络探索 Hattrick，结合数据和领域知识来开发能够解释和模拟游戏引擎的模型。我们进行了全面的分析，评估了结构学习算法相对于基于知识结构的效果，结果显示，尽管结构学习可能会实现更高的整体网络拟合度，但在预测选定变量时并不比产生较低整体网络拟合度的知识驱动网络更准确。此外，我们介绍并公开分享了一个与 Hattrick 社区使用的顶级模型表现相当的完全指定的贝叶斯网络模型。我们进一步展示分析如何超越仅仅预测，提供条件依赖的可视化表示，并使用性能最佳的贝叶斯网络模型进行游戏内决策。为了支持未来的研究，我们在线上公开了所有数据、图形结构和模型。

发布时间: 4/15/2025

查看原文

联邦原型图学习

作者: Zhengyu Wu, Xunkai Li, Yinlin Zhu, Rong-Hua Li, Guoren Wang, Chenghu Zhou

arXiv:2504.09493v1 宣告类型: cross 摘要：近年来，联邦图学习（FGL）因其在基于图的机器智能应用中的分布式训练能力而备受关注，同时减轻了数据孤岛问题，并为大型图的隐私保护学习提供了新的视角。然而，多级FGL异构性带来了各种客户端-服务器合作挑战：(1) 模型级别：为了实现预期的性能和可扩展性，客户端之间的差异性需求异构模型的部署。不幸的是，大多数FGL方法由于服务器直接进行模型权重聚合而严格要求所有客户端模型一致。(2) 数据级别：图的复杂性特征，体现在节点特征和拓扑结构的交织中，提出了优化困境。这表明，通过联邦训练获得的模型在性能上难以超越。(3) 通信级别：一些FGL方法试图增加客户端之间或客户端与服务器之间的消息共享，以提高训练效果，但不可避免地导致通信成本高。本文提出FedPG作为一种多级别FGL异构性的通用原型指导优化方法。具体而言，在客户端，我们整合了多级拓扑感知原型来捕捉局部图语义。后续在服务器端，利用上传的原型，我们采用拓扑引导的对比学习和个人化技术为每位客户端定制全局原型，并广播以改进局部训练。实验结果显示，在准确率上，FedPG相比于当前最佳基线平均提高了3.57%，同时将通信成本降低了168倍。

发布时间: 4/15/2025

查看原文

HalluShift：衡量通往幻觉检测过程中分布偏移的变化

作者: Sharanya Dasgupta, Sujoy Nath, Arkaprabha Basu, Pourya Shamsolmoali, Swagatam Das

arXiv:2504.09482v1 异常类型: 交叉摘要: 大型语言模型（LLMs）近年来因其在众多领域中生成创新响应的能力而引起了广泛的关注。然而，LLMs 经常受到内在幻觉的局限，即使生成结构良好且连贯的响应，也会产生错误的信息。在本文中，我们假设幻觉来自于 LL defense 的内部动态。我们的观察表明，在响应生成过程中，LLMs 倾向于在响应的细微部分偏离事实的准确性，最终转向 misinformation。这一现象类似于人类认知，人们在保持逻辑连贯的同时可能会产生幻觉，将其不确定性的元素嵌入其言语的微小部分。为了进一步研究这一点，我们引入了一种创新的方法 HalluShift，旨在分析 LL defense 生成的响应在内部状态空间和令牌概率分布的变化。我们的方法在各种基准数据集上优于现有基线。我们的代码库可在 https://github.com/sharanya-dasgupta001/hallushift 上获取。

发布时间: 4/15/2025

查看原文

视觉-语言模型在物体检测和分割中的应用：综述与评估

作者: Yongchao Feng, Yajie Liu, Shuai Yang, Wenrui Cai, Jinqing Zhang, Qiqi Zhan, Ziyue Huang, Hongxi Yan, Qiao Wan, Chenguang Liu, Junzhe Wang, Jiahui Lv, Ziqi Liu, Tengyuan Shi, Qingjie Liu, Yunhong Wang

arXiv:2504.09480v1 类别：跨领域摘要：视觉-语言模型（VLM）在开放词汇（OV）对象检测和分割任务中得到了广泛应用。尽管它们在OV相关的任务中显示出潜力，但它们在传统视觉任务中的有效性至今尚未得到评估。在本文中，我们系统地回顾了基于VLM的检测和分割，将VLM视为基础模型，并首次对多个下游任务进行全面评估：1）评估跨越八个检测场景（封闭集检测、领域适应、密集对象等）和八个分割场景（少量样本、开放世界、小型对象等），揭示了各种VLM架构在不同任务中的性能优势和局限性。2）对于检测任务，我们根据三种微调粒度评估VLMs：零预测、视觉微调和文本提示，并进一步分析不同微调策略在不同任务中的性能影响。3）基于实证发现，我们深入分析了任务特征、模型架构和训练方法之间的关联，为未来的VLM设计提供见解。4）我们认为，本研究对于从事计算机视觉、多模态学习和视觉基础模型领域的模式识别专家具有价值，通过介绍问题并使他们熟悉当前的研究进展，为未来的研究提供有希望的方向。与此回顾和评估相关的一个项目已在https://github.com/better-chao/perceptual_abilities_evaluation 创建。

发布时间: 4/15/2025

查看原文

可折叠翅膀可控变机动的飞鼠无人机

作者: Jun-Gill Kang, Dohyeon Lee, Soohee Han

arXiv:2504.09478v1 宣告类型: cross 摘要: 具有多旋翼的典型无人机由于单向推力通常不太灵活，在非常狭窄和受限的空间中进行敏捷飞行可能不够有利。本文提出了一种新型仿生无人机，通过轻便易携带的方式赋予其高度灵活性。所提议的飞鼠启发式无人机配备了可控制的折叠翅膀，能够覆盖更广泛的飞行姿态，并提供更灵活的飞行能力，同时保持稳定的跟踪性能。无人机的翅膀通过硅膜制成，并基于人类示范数据通过基于强化学习的复杂控制来实现。特别是，这种基于学习的翅膀控制能够捕捉到往往难以用数学方式建模的复杂空气动力学。通过实验表明，所提议的飞鼠无人机故意产生空气动力阻力，从而即使在饱和机械推力下也能提供所需的额外排斥力。这项工作在展示仿生学和机器学习在实现类似动物的敏捷无人机方面的潜力方面具有重要意义。

发布时间: 4/15/2025

查看原文