arXiv 论文列表

作者: Qi Fan, Hongyu Yuan, Haolin Zuo, Rui Liu, Guanglai Gao

多模态情感识别利用完整的模态信息和强大的多模态联合表示来获得高性能。然而，在现实中，完整的模态完整性的理想条件往往不适用，并且总是会出现某些模态缺失的情况。例如，由于传感器故障或网络带宽问题，视频、音频或文本数据缺失，这对 MER 研究提出了巨大挑战。传统方法从完整的模态中提取有用信息，并重建缺失的模态以学习鲁棒的多模态联合表示。这些方法为该领域的研究奠定了坚实的基础，并在一定程度上缓解了模态缺失情况下多模态情感识别的难度。然而，仅仅依靠内部重建和多模态联合学习存在局限性，尤其是在缺失信息对情感识别至关重要的情况下。为了解决这一挑战，我们提出了一种新的检索增强缺失模态多模态情感识别框架（RAMER），该框架引入了类似的多模态情感数据来增强模态缺失情况下情感识别的性能。通过利用包含相关多模态情感数据的数据库，我们可以检索类似的多模态情感信息来填补缺失模态留下的空白。各种实验结果表明，我们的框架在缺失模态 MER 任务中优于现有的最先进方法。我们的整个项目在 https://github.com/WooyoohL/Retrieval_Augment_MER 上公开提供。

发布时间: 10/7/2024

查看原文

基于三维数据估计人体体积和身高

作者: Vivek Ganesh Sonar, Muhammad Tanveer Jan, Mike Wells, Abhijit Pandya, Gabriela Engstrom, Richard Shih, Borko Furht

在紧急医学中，准确的体重估计对于正确剂量体重依赖性药物至关重要，但在紧急情况下，直接测量往往不切实际。本文提出了一种非侵入式方法，通过使用 3D 成像技术计算人体总体积和身高来估计体重。使用 RealSense D415 相机捕获患者的高分辨率深度图，从中生成 3D 模型。然后应用凸包算法计算人体总体积，通过将点云数据分割成多个部分并将其体积相加来提高准确性。身高是从 3D 模型中推导出来的，通过识别身体上关键点之间的距离。这种组合方法提供了准确的体重估计，提高了在无法获得精确体重数据的医疗干预的可信度。所提出的方法显示出在紧急情况下增强患者安全和治疗效果的巨大潜力。

发布时间: 10/7/2024

查看原文

TaCIE：通过任务中心指令演化增强大型语言模型的指令理解能力

作者: Jiuding Yang, Shengyao Lu, Weidong Guo, Xiangyang Li, Kaitong Yang, Yu Xu, Di Niu

大型语言模型 (LLM) 需要与复杂的指令精确对齐，才能在现实世界的应用中优化其性能。随着对精细指令调优数据的需求不断增长，传统的从简单种子指令演化而来的方法往往难以有效地提高复杂度或管理跨不同领域的难度扩展。我们的创新方法，任务中心指令演化 (TaCIE)，通过重新定义指令演化，从仅仅演化种子指令转变为更动态、更全面的元素组合，来解决这些缺点。TaCIE 首先将复杂的指令分解为其基本组成部分。然后，它生成并整合新的元素与原始元素，将它们重新组合成更复杂的指令，这些指令在难度、多样性和复杂性方面逐步提高。应用于多个领域，使用这些演化指令微调的 LLM 显著优于使用传统方法微调的 LLM，标志着基于指令的模型微调取得了重大进展。

发布时间: 10/7/2024

查看原文

DifFaiRec：基于条件扩散模型的生成式公平推荐器

作者: Zhenhao Jiang, Jicong Fan

尽管推荐系统可以根据用户偏好自动向用户推荐商品，但它们往往会导致对群体或个人的不公平现象。例如，当用户可以根据敏感的社会属性划分为两个群体，并且这两个群体之间的活动存在显著差异时，学习到的推荐算法会导致两个群体之间的推荐差距，从而造成群体不公平。在这项工作中，我们提出了一种名为基于扩散的公平推荐器（DifFaiRec）的新型推荐算法，以提供公平的推荐。DifFaiRec 基于条件扩散模型，因此具有很强的从用户对商品的评分中学习用户偏好分布的能力，并且能够有效地生成多样化的推荐。为了保证公平，我们设计了一个反事实模块来降低模型对受保护属性的敏感性，并提供数学解释。对基准数据集的实验表明，DifFaiRec 优于竞争性基线。

发布时间: 10/7/2024

查看原文

无逻辑的楼宇自动化：利用墙壁开关和天花板摄像头学习控制房间设施

作者: Hideya Ochiai, Kohki Hashimoto, Takuya Sakamoto, Seiya Watanabe, Ryosuke Hara, Ryo Yagi, Yuji Aizono, Hiroshi Esaki

人工智能通过学习用户对设施控制的偏好，能够实现更智能的建筑自动化控制。强化学习 (RL) 是其中的一种方法，但在实际应用中面临着许多挑战。我们提出了一种新的无逻辑建筑自动化 (LFBA) 架构，该架构利用深度学习 (DL) 来控制房间设施，无需预定义逻辑。我们的方法不同于 RL，它使用墙壁开关作为监督信号，以及天花板摄像头监控环境，使 DL 模型能够直接从场景和开关状态中学习用户的首选控制。我们的测试平台对该 LFBA 系统进行了各种条件和用户活动的测试。结果表明该系统有效，使用 VGG 模型实现了 93%-98% 的控制精度，优于其他 DL 模型，如 Vision Transformer 和 ResNet。这表明 LFBA 通过从可观察的场景和用户交互中学习，可以实现更智能、更友好的控制。

发布时间: 10/7/2024

查看原文

基于视觉语言模型的导航：通往任何语言之路

作者: Zecheng Yin, Chonghao Cheng, Lizhen

实现完全开放的语言目标并像人类探索一样探索开放场景一直是巨大的挑战。最近，视觉大型语言模型 (VLMs) 在用语言和视觉数据进行推理方面展现出了非凡的能力。虽然许多研究都集中在利用 VLMs 在开放场景和开放词汇表中进行导航，但这些努力往往无法充分利用 VLMs 的潜力，或者需要大量的计算资源。我们介绍了 VLM 导航 (NavVLM)，这是一个利用设备级 VLMs 使代理能够在开放场景中针对任何特定或非特定语言目标进行导航的框架，模拟人类探索行为，无需任何事先训练。代理利用 VLM 作为其认知核心，根据任何语言目标感知环境信息，并在导航过程中不断提供探索指导，直到到达目标位置或区域。我们的框架不仅在传统特定目标设置中的成功率 (SR) 和路径长度加权成功率 (SPL) 方面取得了最先进的性能，而且还将导航能力扩展到任何开放集语言目标。我们在 Habitat 模拟器中评估了来自 Matterport 3D (MP3D)、Habitat Matterport 3D (HM3D) 和 Gibson 数据集的细节丰富的环境中的 NavVLM。凭借 VLMs 的力量，导航已进入一个新时代。

发布时间: 10/7/2024

查看原文

基于黎曼朗之万动力学的鲁棒对称性检测

作者: Jihyeon Je, Jiayi Liu, Guandao Yang, Boyang Deng, Shengqu Cai, Gordon Wetzstein, Or Litany, Leonidas Guibas

对称性在自然界和人造物中无处不在，从各种物体中都可以观察到。虽然人类能够直观地感知这些对称性，但由于搜索空间巨大，机器检测对称性却并非易事。传统的基于几何的方法通过对每个对称性进行“投票”来进行检测，但难以应对噪声。相比之下，基于学习的方法可能对噪声更具鲁棒性，但由于标注数据的稀缺，往往会忽略部分对称性。本文通过提出一种将经典对称性检测技术与生成式模型最新进展相结合的新型对称性检测方法来解决这一挑战。具体而言，我们将朗之万动力学应用于重新定义的对称空间，以增强对噪声的鲁棒性。我们在各种形状上提供了实证结果，表明我们的方法不仅对噪声具有鲁棒性，而且能够识别部分和全局对称性。此外，我们还展示了检测到的对称性在各种下游任务中的实用性，例如压缩和对噪声形状进行对称化。

发布时间: 10/7/2024

查看原文

通过人机协作增强心理健康支持：迈向安全和富有同理心的 AI 驱动的聊天机器人

作者: Rawan AlMakinah, Andrea Norcini-Pala, Lindsey Disney, M. Abdullah Canbaz

心理健康支持的获取仍然有限，特别是在边缘化社区，结构性和文化障碍阻碍了及时护理。本文探讨了人工智能驱动的聊天机器人作为可扩展解决方案的潜力，重点关注先进的大型语言模型 (LLM)——GPT v4、Mistral Large 和 LLama V3.1——并评估它们在心理健康环境中提供同理心、有意义的回应的能力。虽然这些模型在生成结构化回应方面显示出希望，但它们在复制人类治疗师的情感深度和适应性方面还存在不足。此外，由于不可靠的数据集和与心理健康专业人员的合作有限，信任、偏见和隐私挑战依然存在。为了解决这些局限性，我们提出了一种联邦学习框架，该框架可以确保数据隐私，减少偏见，并整合来自临床医生的持续验证以提高回应质量。这种方法旨在开发一个安全、基于证据的 AI 聊天机器人，能够提供可信、同理心和减少偏见的的心理健康支持，从而推动 AI 在数字心理健康护理中的作用。

发布时间: 10/7/2024

查看原文

猜猜我想什么：基于潜在扩散模型的简化脑电图到图像生成

作者: Eleonora Lopez, Luigi Sigillo, Federica Colonnese, Massimo Panella, Danilo Comminiello

从脑电波生成图像因其在理解脑信号如何编码视觉线索方面的潜力而受到越来越多的关注，这将推动脑机接口（BCI）系统的发展。大多数文献集中于 fMRI-to-Image 任务，因为 fMRI 具有高空间分辨率。然而，fMRI 是一种昂贵的脑成像模式，无法实现实时 BCI。另一方面，脑电图 (EEG) 是一种低成本、非侵入性和便携式的脑成像技术，使其成为未来实时应用的理想选择。然而，EEG 因其低空间分辨率以及对噪声和伪影的敏感性而面临着固有的挑战，这使得从 EEG 生成图像更加困难。在本文中，我们基于 ControlNet 适配器提出了一种简化的框架，通过 EEG 信号对潜在扩散模型 (LDM) 进行调节，以解决这些问题。我们对流行的基准进行了实验和消融研究，证明了所提出的方法优于其他最先进的模型。与这些方法不同的是，这些方法通常需要大量的预处理、预训练、不同的损失函数和字幕模型，我们的方法高效且简单，只需要最少的预处理和几个组件。代码将在发表后提供。

发布时间: 10/7/2024

查看原文

从电商网站结构中学习变体产品关系和变体属性

作者: Pedro Herrero-Vidal, You-Lin Chen, Cris Liu, Prithviraj Sen, Lichao Wang

我们引入了 VARM，即变体关系匹配策略，用于识别电子商务目录中的变体产品对。传统的实体解析定义关注的是产品提及是否指向同一个底层产品。然而，这无法捕捉到对电子商务应用至关重要的产品关系，例如在同一网页上列出类似但并不完全相同的产品，或共享评论。在这里，我们制定了一种新的实体解析类型，即变体产品关系，以捕捉这些类似的电子商务产品链接。与传统定义不同，新定义要求既要识别两个产品是否彼此匹配，又要识别它们之间哪些属性存在差异。为了满足这两个要求，我们开发了一种策略，它利用了编码和生成式 AI 模型的优势。首先，我们构建了一个数据集，该数据集捕捉网页产品链接，因此捕捉变体产品关系，以训练一个编码 LLM 来预测任何给定产品对的变体匹配。其次，我们使用 RAG 提示的生成式 LLM 来提取变体产品组之间的变异和共同属性。为了验证我们的策略，我们使用来自全球领先电子商务零售商之一的真实数据评估了模型性能。结果表明，我们的策略优于替代解决方案，并为利用这些新型产品关系铺平了道路。

发布时间: 10/7/2024

查看原文