arXiv 论文列表

作者: Ting Liu, Zunnan Xu, Yue Hu, Liangtao Shi, Zhiqiang Wang, Quanjun Yin

指代表达式理解（REC）旨在通过自然语言将一个局部视觉区域与语义联系起来，是一个高度依赖于跨模态对齐的任务。大多数现有方法利用强大的预训练模型，通过全量微调来迁移视觉/语言知识。然而，对整个主干网络进行全量微调不仅会破坏预训练中嵌入的丰富先验知识，还会产生巨大的计算成本。受参数高效迁移学习（PETL）方法近期兴起的启发，我们旨在以一种有效且高效的方式解决 REC 任务。直接将这些 PETL 方法应用于 REC 任务是不合适的，因为它们缺乏对精确局部视觉感知和视觉语言对齐的特定领域能力。因此，我们提出了一种新的多模态先验引导参数高效调优框架，即 MaPPER。具体而言，MaPPER 包含由对齐先验引导的动态先验适配器，以及用于提取精确局部语义以实现更好视觉感知的局部卷积适配器。此外，还提出了先验引导文本模块，以进一步利用先验来促进跨模态对齐。在三个广泛使用的基准数据集上的实验结果表明，MaPPER 在仅使用 1.41% 可调主干网络参数的情况下，实现了与全量微调和其他 PETL 方法相比最佳的精度。我们的代码可在 https://github.com/liuting20/MaPPER 获取。

发布时间: 10/8/2024

查看原文

食谱谜题：将大型语言模型代理打造为风味科学家

作者: Tenghao Huang, Donghee Lee, John Sweeney, Jiatong Shi, Emily Steliotes, Matthew Lange, Jonathan May, Muhao Chen

食品行业中风味开发面临着快速创新和精准风味特征构建的需求，这带来了越来越大的挑战。传统的风味研究方法通常依赖于迭代的主观测试，缺乏现代需求所需的效率和可扩展性。本文提出了三个贡献来应对这些挑战。首先，我们为风味科学中的科学代理定义了一个新的问题域，将其概念化为对风味特征来源和理解的假设生成。为了促进该领域的科研，我们引入了FoodPuzzle，这是一个具有挑战性的基准，包含 978 种食物和 1,766 种风味分子特征。我们提出了一种新颖的科学代理方法，将上下文学习和检索增强技术相结合，以在食品科学领域生成有根据的假设。实验结果表明，我们的模型在风味特征预测任务中显著优于传统方法，证明了其在改变风味开发实践方面的潜力。

发布时间: 10/8/2024

查看原文

新生儿重症监护室的机器听觉

作者: Modan Tailleur (LS2N,Nantes Univ - ECN,LS2N - \'equipe SIMS), Vincent Lostanlen (LS2N,LS2N - \'equipe SIMS,Nantes Univ - ECN), Jean-Philippe Rivi\`ere (Nantes Univ,Nantes Univ - UFR FLCE,LS2N,LS2N - \'equipe PACCE), Pierre Aumond (UMRAE)

氧气机、警报装置和脚步声是医院中最常见的声源。检测这些声音对于环境心理学具有科学价值，但也面临着自身挑战：即隐私保护和有限的标记数据。本文通过结合边缘计算和云计算来解决这两个挑战。为了保护隐私，我们设计了一种声学传感器，它可以实时计算三分之一倍频程声谱图，而不是记录音频波形。为了实现样本高效的机器学习，我们通过频谱转码和标签空间自适应重用了一个预训练的音频神经网络 (PANN)。在一个新生儿重症监护病房 (NICU) 的小型研究证实，检测到的事件的时间序列与另一种测量方式一致：即父母和医疗保健专业人员的电子徽章。因此，本文证明了在医院病房中进行多声部机器听觉的可行性，同时通过设计保证隐私。

发布时间: 10/8/2024

查看原文

SplatSim：基于高斯散点图的零样本RGB操控策略Sim2Real迁移

作者: Mohammad Nomaan Qureshi, Sparsh Garg, Francisco Yandun, David Held, George Kantor, Abhisesh Silwal

模拟到真实世界迁移，特别是对于依赖于 RGB 图像的操控策略，由于合成数据和真实世界视觉数据之间存在显著的领域差异，因此仍然是机器人学中的一个关键挑战。本文提出了一种名为 SplatSim 的新框架，该框架利用高斯 splatting 作为主要的渲染原语来减少基于 RGB 的操控策略的模拟到真实世界迁移差距。通过在模拟器中用高斯 splat 替换传统的网格表示，SplatSim 能够生成高度逼真的合成数据，同时保持模拟的可扩展性和成本效益。我们通过在 SplatSim 中训练操控策略并在真实世界中以零样本的方式部署它们来证明该框架的有效性，实现了 86.25% 的平均成功率，而用真实世界数据训练的策略的成功率为 97.5%。视频可以在我们的项目页面上找到：https://splatsim.github.io

发布时间: 10/8/2024

查看原文

Famba-V：具有跨层令牌融合的快速视觉Mamba

作者: Hui Shen, Zhongwei Wan, Xin Wang, Mi Zhang

Mamba 和 Vision Mamba (Vim) 模型已展现出作为 Transformer 架构方法替代品的潜力。这项工作介绍了用于视觉的快速 Mamba (Famba-V)，这是一种跨层令牌融合技术，旨在提高 Vim 模型的训练效率。Famba-V 的关键思想是基于一系列跨层策略来识别和融合不同 Vim 层中的相似令牌，而不是像现有工作提出的那样简单地在所有层中统一应用令牌融合。我们在 CIFAR-100 上评估了 Famba-V 的性能。我们的结果表明，Famba-V 能够通过减少训练时间和训练期间的峰值内存使用来提高 Vim 模型的训练效率。此外，所提出的跨层策略使 Famba-V 能够提供优越的准确性-效率权衡。所有这些结果共同证明了 Famba-V 作为 Vim 模型的一种很有前途的效率增强技术。

发布时间: 10/8/2024

查看原文

仇恨的宣传：基于多智能体大型语言模型的阿拉伯表情包多模态分析

作者: Firoj Alam, Md. Rafiul Biswas, Uzair Shah, Wajdi Zaghouani, Georgios Mikros

在过去十年中，社交媒体平台被用于信息传播和消费。虽然大部分内容是为了促进公民新闻和公众意识而发布的，但有些内容是为了误导用户而发布的。在文本、图像和视频等不同内容类型中，表情包（在图像上叠加文本）尤其普遍，可以成为宣传、仇恨和幽默的强大载体。在目前的文献中，人们已经努力在表情包中单独检测这类内容。然而，对它们交集的研究非常有限。在本研究中，我们使用基于多智能体大型语言模型的方法探索了表情包中宣传和仇恨的交集。我们通过粗粒度和细粒度的仇恨标签扩展了宣传表情包数据集。我们的发现表明，表情包中的宣传和仇恨之间存在关联。我们提供了详细的实验结果，这些结果可以作为未来研究的基线。我们将公开发布实验资源供社区使用 (https://github.com/firojalam/propaganda-and-hateful-memes)。

发布时间: 10/8/2024

查看原文

母语与非母语提示：对比分析

作者: Mohamed Bayan Kmainasi, Rakif Khan, Ali Ezzat Shahroor, Boushra Bendou, Maram Hasanain, Firoj Alam

大型语言模型（LLMs）在不同领域展现出非凡的能力，包括标准的自然语言处理（NLP）任务。为了从 LLMs 中引出知识，提示起着关键作用，它由自然语言指令组成。大多数开放和闭源 LLMs 在可用的标记和未标记资源（如文本、图像、音频和视频等数字内容）上进行训练。因此，这些模型在资源丰富的语言方面拥有更好的知识，但在资源匮乏的语言方面却难以应付。由于提示在理解其能力方面起着至关重要的作用，因此用于提示的语言仍然是一个重要的研究问题。尽管在这个领域已经进行了大量的研究，但它仍然有限，而且对于中等资源到低资源语言的研究更少。在本研究中，我们调查了 12 个不同阿拉伯语数据集（9.7K 个数据点）相关的 11 个不同 NLP 任务上的不同提示策略（母语与非母语）。总的来说，我们进行了 197 个实验，涉及 3 个 LLMs、12 个数据集和 3 种提示策略。我们的发现表明，平均而言，非母语提示表现最佳，其次是混合提示和母语提示。

发布时间: 10/8/2024

查看原文

蛋白质基模型的全面评估：ProteinBench

作者: Fei Ye, Zaixiang Zheng, Dongyu Xue, Yuning Shen, Lihao Wang, Yiming Ma, Yan Wang, Xinyou Wang, Xiangxin Zhou, Quanquan Gu

近年来，蛋白质基础模型的开发蓬勃发展，显著提升了蛋白质预测和生成任务的性能，涵盖从 3D 结构预测和蛋白质设计到构象动力学等方面。然而，由于缺乏统一的评估框架，这些模型的能力和局限性仍未得到充分理解。为了填补这一空白，我们引入了 ProteinBench，这是一个旨在提高蛋白质基础模型透明度的整体评估框架。我们的方法包含三个关键组成部分：（i）基于不同蛋白质模态之间关系的蛋白质领域主要挑战的分类学任务分类；（ii）一种多指标评估方法，从四个关键维度评估性能：质量、新颖性、多样性和鲁棒性；（iii）来自各种用户目标的深入分析，提供模型性能的整体视图。我们对蛋白质基础模型的全面评估揭示了几个关键发现，阐明了它们当前的能力和局限性。为了促进透明度并推动进一步研究，我们发布了评估数据集、代码和公开排行榜，供进一步分析和通用模块化工具包使用。我们希望 ProteinBench 成为一个活生生的基准，为建立蛋白质基础模型的标准化、深入评估框架奠定基础，推动其发展和应用，同时促进该领域内的合作。

发布时间: 10/8/2024

查看原文

单纯形赋能安全持续学习机器

作者: Hongpeng Cao, Yanbing Mao, Yihao Cai, Lui Sha, Marco Caccamo

本文提出了 SeC-Learning 机器：一种基于单纯形的安全持续学习方法，适用于安全攸关的自主系统。SeC-Learning 机器基于单纯形逻辑（即“利用简单性来控制复杂性”）和物理约束深度强化学习（Phy-DRL）。因此，SeC-Learning 机器包含 HP（高性能）-学生、HA（高保障）-教师和协调器。具体而言，HP-学生是一个经过预训练的高性能但未完全验证的 Phy-DRL，它在真实环境中持续学习以调整动作策略，使其安全可靠。相比之下，HA-教师是一个任务简化、基于物理模型且经过验证的设计。作为补充，HA-教师承担着两项任务：保障安全和纠正不安全的学习。协调器触发 HP-学生和 HA-教师之间的交互和切换。得益于这三个交互式组件，SeC-Learning 机器能够：i) 确保终身安全（即在任何持续学习阶段都能保证安全，无论 HP-学生是否成功或收敛）；ii) 解决模拟到真实环境的差距；iii) 学习在真实环境中容忍未知的未知因素。在一根杆子上的小车系统和真实的四足机器人上的实验表明，与基于最先进的安全 DRL 框架并包含解决模拟到真实环境差距方法的持续学习方法相比，SeC-Learning 机器具有独特的功能。

发布时间: 10/8/2024

查看原文

去混淆因果关系感知的参数高效微调，用于提高大型语言模型的解决问题能力

作者: Ruoyu Wang, Xiaoxuan Li, Lina Yao

大型语言模型 (LLMs) 在处理基于人类指令的各种任务方面表现出了非凡的效率，但研究表明，它们在需要推理的任务（如数学或物理）中往往难以应对。这种局限性引发了人们对 LLMs 是否真正理解嵌入的知识，还是仅仅学会复制标记分布而没有真正理解内容的疑问。本文深入研究了这个问题，旨在增强 LLMs 的推理能力。首先，我们通过可视化注意力和表示级别的文本生成过程来调查模型是否具有真正的推理能力。然后，我们将 LLMs 的推理过程构建到一个因果框架中，该框架为可视化中观察到的问题提供了正式解释。最后，基于此因果框架，我们提出了解混因果适应 (DCA)，这是一种新颖的参数高效微调 (PEFT) 方法，通过鼓励模型提取通用问题解决技能并将这些技能应用于不同的问题来增强模型的推理能力。实验表明，我们的方法在多个基准测试中始终优于基线，并且仅使用 120 万个可调参数，我们获得了与其他微调方法相当或更好的结果。这证明了我们的方法在提高 LLMs 的整体准确性和可靠性方面的有效性和效率。

发布时间: 10/8/2024

查看原文