arXiv 论文列表

作者: Vineet Punyamoorty, Pascal Jutras-Dub\'e, Ruqi Zhang, Vaneet Aggarwal, Damon Conover, Aniket Bera

将强化学习框架化为序列建模问题，最近的研究使生成模型（例如扩散模型）能够用于规划。虽然这些模型在预测确定性环境中的长时程状态轨迹方面很有效，但它们在存在移动障碍物的动态环境中面临挑战。有效的避碰需要持续监测和自适应决策。虽然在每个时间步重新规划可以确保安全，但由于重复预测重叠状态序列，它会带来大量的计算开销——对于扩散模型来说，这是一个特别昂贵的过程，因为它们以密集的迭代采样过程而闻名。我们提出了一种自适应生成规划方法，该方法根据动作预测的不确定性动态调整重新规划频率。我们的方法最大限度地减少了对频繁、计算量大且冗余的重新规划的需求，同时保持了强大的避碰性能。在实验中，我们获得了平均轨迹长度 13.5% 的增长和平均奖励 12.7% 的增长，超过了长时程规划，这表明碰撞率降低以及在环境中安全导航的能力得到提高。

发布时间: 9/26/2024

查看原文

Go-SLAM：基于高斯散点SLAM的地面物体分割与定位

作者: Phu Pham, Dipam Patel, Damon Conover, Aniket Bera

我们引入了 Go-SLAM，一个利用 3D 高斯散点 SLAM 重建动态环境并嵌入场景表示中物体级信息的全新框架。该框架采用先进的物体分割技术，为每个高斯散点分配一个唯一的标识符，对应于它所代表的物体。因此，我们的系统可以实现开放词汇查询，允许用户使用自然语言描述来定位物体。此外，该框架还包含一个最优路径生成模块，该模块计算机器人到达查询物体的有效导航路径，考虑了障碍物和环境的不确定性。在各种场景设置中进行的综合评估证明了我们的方法在提供高保真场景重建、精确物体分割、灵活物体查询和高效机器人路径规划方面的有效性。这项工作代表着在 3D 场景重建、语义物体理解和实时环境交互之间架起桥梁的又一步。

发布时间: 9/26/2024

查看原文

基于多视角扩散模型的高斯散点生成物体插入

作者: Hongliang Zhong, Can Wang, Jingbo Zhang, Jing Liao

在三维内容中生成和插入新物体是实现灵活场景重建的一种引人注目的方法。现有的方法依赖于 SDS 优化或单视图修复，往往难以产生高质量的结果。为了解决这个问题，我们提出了一种新方法，用于在由高斯散点表示的三维内容中插入物体。我们的方法引入了一种多视图扩散模型，称为 MVInpainter，该模型建立在预先训练的稳定视频扩散模型的基础上，以促进视图一致的物体修复。在 MVInpainter 中，我们加入了一个基于 ControlNet 的条件注入模块，以实现受控且更可预测的多视图生成。在生成多视图修复结果后，我们进一步提出了一种掩模感知的三维重建技术，以从这些稀疏修复视图中细化高斯散点重建。通过利用这些伪造技术，我们的方法产生了多样化的结果，确保了视图一致和和谐的插入，并产生了更好的物体质量。大量的实验表明，我们的方法优于现有的方法。

发布时间: 9/26/2024

查看原文

基于多视角伪标签的半监督语音认知状态分类

作者: Yuanchao Li, Zixing Zhang, Jing Han, Peter Bell, Catherine Lai

缺乏标注数据是语音分类任务中常见的问题，尤其是那些需要大量主观评估的任务，例如认知状态分类。在本研究中，我们提出了一种半监督学习（SSL）框架，引入了新颖的多视图伪标签方法，该方法利用声学和语言特征来选择最可靠的数据，用于训练分类模型。从声学上讲，使用弗雷歇音频距离将未标注数据与标注数据进行比较，该距离由多个音频编码器生成的嵌入计算得出。从语言学上讲，大型语言模型被提示修改自动语音识别转录并根据我们提出的特定任务知识预测标签。当来自两个来源的伪标签一致时，会识别出高置信度数据，而当不一致时，则视为低置信度数据。然后训练一个双模态分类器来迭代地标记低置信度数据，直到满足预定义的标准。我们在情感识别和痴呆症检测任务中评估了我们的 SSL 框架。实验结果表明，与仅使用 30% 标注数据的完全监督学习相比，我们的方法取得了具有竞争力的性能，并且显著优于两个选定的基线。

发布时间: 9/26/2024

查看原文

探索OCR敏感神经元以提升历史文献实体识别

作者: Emanuela Boros, Maud Ehrmann

本文探究了 Transformer 架构中是否存在对光学字符识别 (OCR) 敏感的神经元，以及它们对历史文献命名实体识别 (NER) 性能的影响。通过分析神经元在响应干净和噪声文本输入时的激活模式，我们识别并随后中和了 OCR 敏感神经元，以提高模型性能。基于两个开放访问大型语言模型 (Llama2 和 Mistral)，实验表明 OCR 敏感区域的存在，并展示了在历史报纸和经典评论中 NER 性能的提高，突出了针对性神经元调节在提高模型对噪声文本性能方面的潜力。

发布时间: 9/26/2024

查看原文

跨语言语音情感识别：人类与自监督模型的比较

作者: Zhichen Han, Tianqi Geng, Hui Feng, Jiahong Yuan, Korin Richmond, Yuanchao Li

利用自监督学习 (SSL) 模型进行语音情感识别 (SER) 已被证明是有效的，但目前对跨语言场景的研究有限。本研究对人类表现和 SSL 模型进行了比较分析，从逐层分析开始，并探索了单语、跨语言和迁移学习环境中的参数高效微调策略。我们进一步比较了模型和人类在语句级和片段级上的 SER 能力。此外，我们通过人类评估研究了方言对跨语言 SER 的影响。我们的研究结果表明，模型通过适当的知识迁移可以适应目标语言，并实现与母语人士相当的性能。我们还证明了方言对没有先验语言和副语言背景的个体 SER 的重大影响。此外，人类和模型在不同情绪下表现出不同的行为。这些结果为 SSL 模型的跨语言 SER 能力提供了新的见解，突出了它们与人类情绪感知的相似之处和差异。

发布时间: 9/26/2024

查看原文

增强时间敏感问答中的时间敏感性和推理能力

作者: Wanqi Yang, Yanda Li, Meng Fang, Ling Chen

时间敏感问答 (TSQA) 需要有效利用特定的时间上下文，涵盖多个随时间变化的事实，来回答时间敏感的问题。这不仅需要解析问题中的时间信息，还需要识别和理解随时间变化的事实，才能生成准确的答案。然而，当前的大型语言模型对时间信息的敏感度仍然有限，其时间推理能力不足。本文提出了一种新颖的框架，通过时间信息感知嵌入和粒度对比强化学习来增强时间感知和推理能力。在四个 TSQA 数据集上的实验结果表明，该框架在 TSQA 任务中显著优于现有的大型语言模型，标志着弥合机器与人类时间理解和推理能力差距的一步。

发布时间: 9/26/2024

查看原文

基于判别性锚点学习的高效多视角聚类

作者: Yalan Qin, Nan Pu, Hanzhou Wu, Nicu Sebe

多视角聚类旨在研究不同视角间的互补信息，并挖掘潜在结构。为了解决现有方法计算成本相对较高的难题，最近提出了基于锚点的研究。尽管这些方法在聚类性能方面表现尚可，但它们倾向于将来自多个视角的原始表示映射到基于原始数据集的固定共享图中。然而，大多数研究忽略了所学锚点的判别性，这破坏了构建模型的表示能力。此外，通过简单地学习共享锚点图而没有考虑视角特定锚点的质量，忽略了跨视角锚点之间的互补信息。在本文中，我们针对上述问题，提出了用于多视角聚类的判别性锚点学习（DALMC）。我们根据原始数据集学习判别性的视角特定特征表示，并基于这些表示从不同视角构建锚点，从而提高共享锚点图的质量。判别性特征学习和共识锚点图构建被集成到一个统一的框架中，以相互促进，实现精炼。从多个视角学习到的最佳锚点和共识锚点图通过正交约束进行学习。我们给出了一个迭代算法来处理所提出的问题。在不同数据集上的大量实验表明，与其他方法相比，我们的方法更加有效率。

发布时间: 9/26/2024

查看原文

水下伪装目标跟踪：SAM 和 SAM 2 的实验评估

作者: Chunhui Zhang, Li Liu, Guanjie Huang, Hao Wen, Xi Zhou, Yanfeng Wang

在过去的十年中，视觉目标跟踪取得了显著进展，这在很大程度上得益于大规模训练数据集的出现。然而，现有的跟踪数据集主要集中在露天场景，这极大地限制了水下环境中目标跟踪的发展。为了解决这个问题，我们迈出了一步，提出了第一个大规模水下伪装目标跟踪数据集，即 UW-COT。基于提出的数据集，本文对几种先进的视觉目标跟踪方法以及图像和视频分割的最新进展进行了实验评估。具体来说，我们比较了 Segment Anything Model (SAM) 及其更新版本 SAM 2 在具有挑战性的水下环境中的性能。我们的发现突出了 SAM 2 相对于 SAM 的改进，证明了其在处理水下伪装物体复杂性的增强能力。与当前先进的视觉目标跟踪方法相比，最新的视频分割基础模型 SAM 2 也表现出显著的优势，为开发更有效的水下场景跟踪技术提供了宝贵的见解。该数据集将在 \color{magenta}{https://github.com/983632847/Awesome-Multimodal-Object-Tracking} 上公开访问。

发布时间: 9/26/2024

查看原文

大型语言模型具身化和社会化基础的路线图

作者: Sara Incao, Carlo Mazzola, Giulia Belgiovine, Alessandra Sciutti

大型语言模型 (LLM) 与机器人系统的融合为机器人领域带来了变革性的范式，不仅在通信领域提供了前所未有的能力，还在多模态输入处理、高级推理和计划生成等技能方面做出了贡献。将 LLM 的知识融入现实世界被认为是利用 LLM 在机器人领域效率的关键途径。然而，仅仅通过多模态方法或机器人本体将 LLM 的表征连接到外部世界还不足以让它们理解其所操纵的语言的含义。受人类启发，这项工作着眼于代理人掌握和体验世界的三个必要要素。将 LLM 融入现实世界的路线图被设想为一个积极的躯体系统，作为体验环境的参考点，一个时间结构化的体验，用于与外部世界进行连贯的、自我相关的交互，以及社交技能，以获得共同的基础共享体验。

发布时间: 9/26/2024

查看原文