arXiv 论文列表

作者: Joseph Sakau, Evander Kozlowski, Roderick Thistledown, Basil Steinberger

arXiv:2501.13999v2 通知类型: 替换-跨领域摘要：在大规模模型中组织潜在知识，在处理重叠表示和优化上下文准确性时提出了独特的挑战。嵌入在各层中的概念冗余经常导致影响计算需求和任务特定成果的低效率。提出了一种框架，通过高级聚类技术和动态阈值重构这些冗余性，确保保留关键语义关系的同时去除不必要的重叠。评估结果显示了内存效率的改进、更快的推理时间，以及提高的潜在知识集群对齐，增强了可解释性。错误率和对抗鲁棒性的改进表明，重构冗余性对提高模型在各种应用中的可靠性具有更广泛的影响。对比分析强调了资源消耗的减少以及在翻译和摘要任务方面的显著性能提升。能源指标在训练阶段显示出显著的节省，进一步验证了该方法在实际部署中的实用性。表示保真度也得到增强，潜在空间评估表明更好的集群对齐和更高的语义一致性。该方法通过直接在结构层面解决冗余性问题填补了模型优化的关键空白。其应用为实现可扩展、高效且上下文自觉的系统打开了途径，这些系统能够在不牺牲性能的情况下适应复杂、领域特定的任务。

发布时间: 3/26/2025

查看原文

BF-STVSR: B-样条和傅里叶最佳拍档实现高保真时空视频超分辨率

作者: Eunjin Kim, Hyeonjin Kim, Kyong Hwan Jin, Jaejun Yoo

arXiv:2501.11043v2 通告类型: replace-cross 摘要: 在现有的连续空间-时间视频超分辨率（C-STVSR）方法中，虽然它们采用隐式神经表示（INR）进行连续编码，但往往难以捕捉视频数据的复杂性，依赖简单的坐标拼接和预训练的光流网络来进行运动表示。有趣的是，我们发现与常见的观察相反，增加位置编码不仅没有改进性能，反而降低了性能。当与预训练的光流网络结合时，这一问题尤为明显，这可以限制模型的灵活性。为了应对这些挑战，我们提出了一种BF-STVSR框架，该框架包含两个专门为更好地表示视频的空间和时间特征而设计的关键模块：1) B-样条映射器，用于平滑的时间插值，2) 傅里叶映射器，用于捕捉主导的空间频率。我们的方法在多种指标上，包括PSNR和SSIM上达到了最新水平，展示了增强的空间细节和自然的时间一致。我们的代码可在 https://github.com/Eunjnnn/bfstvsr 获取。

发布时间: 3/26/2025

查看原文

NextStop: 一种改进的全景 Lidar 分割数据跟踪器

作者: Nirit Alkalay, Roy Orfaig, Ben-Zion Bobrovsky

arXiv:2501.06235v2 Announce Type: replace-cross 摘要：4D全景LiDAR分割对于自动驾驶和机器人领域的场景理解至关重要，它结合了语义分割和实例分割，并具备时序一致性。当前方法，如4D-PLS和4D-STOP，采用检测跟踪的方法，利用深度学习网络对每帧进行语义和实例分割。为了保持时序一致性，当前帧中检测到的大规模实例会与包含当前帧和前一帧的时序窗口中存在的实例进行比较和关联。然而，这些方法依赖于短期实例检测、缺乏运动估计，并且排除了小型实例，导致频繁的身份切换和跟踪性能降低。我们通过NextStop1追踪器解决了这些问题，该追踪器集成了基于卡尔曼滤波的运动估计、数据关联和生命周期管理，并引入了追踪片段状态的概念以改善优先级。在使用LiDAR分割和追踪质量（LSTQ）度量标准对SemanticKITTI验证集进行评估时，NextStop在小型对象（如行人和骑自行车的人）的跟踪性能方面表现更佳，身份切换减少，跟踪初始化提前，并且在复杂环境中的可靠性提高。源代码可在https://github.com/AIROTAU/NextStop获取。

发布时间: 3/26/2025

查看原文

Infant 学习中超越语言输入的隐藏视觉概念发现

作者: Xueyi Ke, Satoshi Tsutsui, Yayun Zhang, Bihan Wen

arXiv:2501.05205v4 公告类型：替换-交叉摘要：婴儿能够迅速发展出复杂的视觉理解，甚至在获得语言技能之前就已经具备。随着计算机视觉试图复制人类视觉系统，理解婴儿的视觉发展可能提供有价值的洞见。在本文中，我们进行了一项跨学科研究，试图回答这个问题：模仿婴儿学习过程的计算模型是否能够发展出超越其已听过的词汇的更广泛视觉概念，类似于婴儿自然学习的方式？为了探索这个问题，我们分析了Vong等人在《科学》杂志上最近发表的模型，该模型是基于单个儿童的纵向主观视角影像与转录的父母语言描述进行训练的。我们进行了神经元标记，以识别模型内部表示中隐藏的视觉概念神经元。然后，我们展示了这些神经元可以识别模型原始词汇之外的对象。此外，我们比较了婴儿模型和现代计算机视觉模型（如CLIP和ImageNet预训练模型）之间的表示差异。最终，我们的研究将认知科学与计算机视觉相结合，通过分析基于婴儿视觉和语言输入训练的计算模型的内部表示。我们的代码可在 https://github.com/Kexueyi/discover_infant_vis 获取。

发布时间: 3/26/2025

查看原文

基于视频-grounded 归蕴树推理的常识视频问答

作者: Huabin Liu, Filip Ilievski, Cees G. M. Snoek

arXiv:2501.05069v2 通告类型: replace-cross 摘要：本文提出了第一个基于视频的常识视频问答（VQA）的嵌入式演绎树推理方法。尽管大型视觉语言模型（VLMs）取得了显著的进步，但人们对它们在视频和可能答案之间学习虚假相关性的担忧日益增加，这些相关性还受到它们的黑盒性质和遗留下来的基准测试偏差的影响。我们的方法在四个步骤中明确将VQA任务与视频片段联系起来：构建演绎树、视频语言演绎验证、树推理和动态树扩展。该方法的一个重要优势在于它在各种类型的推理中对当前基于视频和图像的VLMs具有普遍适用性。为了支持公平评估，我们基于大型语言模型设计了一种去偏见程序，通过对VQA基准答案集进行重写以强制模型进行推理。在现有和去偏见基准上的系统实验突显了我们方法组成部分在基准、VLMs和推理类型方面的影响力。

发布时间: 3/26/2025

查看原文

无人机邂逅大语言模型：关于能动低空移动的综述与展望

作者: Yonglin Tian, Fei Lin, Yiduo Li, Tengchao Zhang, Qiyao Zhang, Xuan Fu, Jun Huang, Xingyuan Dai, Yutong Wang, Chunwei Tian, Bai Li, Yisheng Lv, Levente Kov\'acs, Fei-Yue Wang

arXiv:2501.02341v2 宣告类型: replace-cross 摘要：低海拔移动性，例如由无人驾驶飞行器（UAV）体现，已经在交通、物流和农业等多个领域引入了变革性的进步。利用灵活的视角和快速机动性，UAVs 扩展了传统系统感知和行动的能力，引起了学术界和工业界的广泛关注。然而，当前的UAV操作主要依赖于人工控制，在简单场景中仅有有限的自主性，缺乏在更复杂环境和任务中所需的智能和适应性。大型语言模型（LLMs）的出现展示了其卓越的问题解决能力和泛化能力，为推进UAV智能提供了有希望的途径。本文探讨了将LLMs和UAVs结合的方法，从UAV系统的基本组件和功能入手，随后对LLM技术的现状进行了概述。接着，本文系统地强调了可用于UAV的多模态数据资源，这些资源为训练和评估提供了关键支持。此外，本文对UAV和LLMs交汇的关键任务和应用场景进行了分类和分析。最后，本文提出了实现自主UAV的参考路线图，旨在通过自主感知、记忆、推理和工具利用使UAV实现自主智能。相关资源可在https://github.com/Hub-Tian/UAVs_Meet_LLMs获取。

发布时间: 3/26/2025

查看原文

VideoRefer Suite: 通过视频LLM推进空间-时间目标理解

作者: Yuqian Yuan, Hang Zhang, Wentong Li, Zesen Cheng, Boqiang Zhang, Long Li, Xin Li, Deli Zhao, Wenqiao Zhang, Yueting Zhuang, Jianke Zhu, Lidong Bing

arXiv:2501.00599v3 Announce Type: replace-cross 摘要：视频大规模语言模型（Video LLMs）最近在通用视频理解方面展现出了卓越的能力。然而，它们主要关注整体理解，难以捕捉细微的空间和时间细节。此外，高质量的物体级视频指令数据的缺乏以及缺乏全面的基准数据进一步阻碍了其进一步发展。为了解决这些挑战，我们引入了VideoRefer Suite，以增强Video LLM在更细粒度的空间-时间视频理解能力，即在视频中的任何物体上实现感知和推理。特别地，我们从三个关键方面全面开发了VideoRefer Suite：数据集、模型和基准数据集。首先，我们介绍了一个多智能体数据引擎，以精心编曲一个大规模、高质量的物体级视频指令数据集，称为VideoRefer-700K。接下来，我们提出了VideoRefer模型，该模型配备了多功能的空间-时间对象编码器，以捕获精确的区域和序列表示。最后，我们精心构建了VideoRefer-Bench，以全面评估Video LLM的空间-时间理解能力，并从多个方面对其进行评估。广泛的实验和分析表明，我们的VideoRefer模型不仅在视频引用基准测试中获得了令人鼓舞的结果，还促进了通用视频理解的能力。

发布时间: 3/26/2025

查看原文

同步扩散：多体人物体交互同步运动扩散合成

作者: Wenkun He, Yun Liu, Ruitao Liu, Li Yi

arXiv:2412.20104v3 Announce Type: replace-cross 摘要：在虚拟现实/增强现实（VR/AR）和人体动画中，合成真实的人-物交互动作是一个关键问题。不同于通常研究的单一人类或手与一个物体交互的场景，我们解决了涉及任意数量的人、手和物体的更通用的多体交互设置。这种复杂性由于各个身体间的高关联性和相互影响而引入了同步动作的重大挑战。为应对这些挑战，我们引入了SyncDiff，一种使用同步运动扩散策略的多体交互合成新方法。SyncDiff使用单一扩散模型来捕捉多体动作的联合分布。为了提高动作保真度，我们提出了一种频域运动分解方案。此外，我们引入了一组新的对齐得分来强调不同身体动作的同步。SyncDiff通过显式的同步策略联合优化数据样本似然性和对齐似然性。在四个具有不同多体配置的数据集上进行的广泛实验表明，SyncDiff在现有最先进的动作合成方法中表现出优越性。

发布时间: 3/26/2025

查看原文

人类响应引导的语言模型指令遵循评估

作者: Xinxi Lyu, Yizhong Wang, Hannaneh Hajishirzi, Pradeep Dasigi

arXiv:2412.15524v2类型：替换交叉摘要：评估大型语言模型（LLMs）在遵循指令方面的能力，很大程度上依赖于一个强大的LLM作为评判者，这引入了未解决的偏差，使得评判结果偏离了人类评判者的标准。在本工作中，我们重新评估了自动评估方法在广泛范围内的指令遵循任务中的表现。我们尝试了利用人类撰写的回应的方法，并观察到这些方法在广泛范围的任务中增强了自动评估的可靠性，最终在与人类评判者的一致性方面提高了高达3.2%。我们还发现，人类撰写的回应为指令遵循提供了与模型生成的回应不同的视角，并且在比较模型回应时应将其作为额外的上下文使用。基于这些观察，我们开发了一个新的评估基准——指导性人类回应评估指令遵循(HREF)，该基准包含4,258个样本，分布在11个任务类别中，使用综合评估设置选择每个类别中最可靠的方法。除了提供可靠的评估外，HREF 强调个体任务表现，并且不受污染。最后，我们研究了HREF中关键设计选择的影响，包括评估集的大小、评判模型、基线模型和提示模板。我们提供了一个实时排行榜，在HREF的私人评估集上评估LLMs的表现。

发布时间: 3/26/2025

查看原文

多文档摘要中的基于覆盖的公平性

作者: Haoyuan Li, Yusen Zhang, Rui Zhang, Snigdha Chaturvedi

arXiv:2412.08795v2 宣告类型: 替换-交叉摘要：多文档摘要中的公平性衡量系统能否公平地代表具有不同社会属性值的文档信息。多文档摘要中的公平性至关重要，因为公平的摘要能够为读者提供全面的观点。此前的研究集中于使用基于统计平等性的代表性比例来量化摘要级别的公平性。然而，代表性比例没有考虑输入文档中的冗余，并忽略了语料库级别的不公平性。在本文中，我们提出了一种新的摘要级别公平性度量 Equal Coverage，它是基于具有不同社会属性值的文档的覆盖面，并考虑了文档内部的冗余。为了检测语料库级别的不公平性，我们提出了一种新的语料库级别度量 Coverage Parity。我们的手动评估显示，我们的度量与我们定义的公平性更为一致。使用我们的度量，我们评估了十三种不同的大语言模型的公平性。我们发现，Claude3-sonnet 在所有评估的大语言模型中是最公平的。我们还发现，几乎所有的大语言模型都过度代表了不同社会属性值。代码可在 https://github.com/leehaoyuan/coverage_fairness 获取。

发布时间: 3/26/2025

查看原文