arXiv 论文列表

作者: Yuan He, Zhangdie Yuan, Jiaoyan Chen, Ian Horrocks

大型语言模型（LLMs）已在众多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于 LLMs 的方法...

发布时间: 10/1/2024

作者: Georgios Ioannides, Aman Chadha, Aaron Elkins

我们提出了一种新的概率注意力框架——多头密度自适应注意力机制（DAAM），它可以用于参数高效微调（PEFT），以及旨在增强跨多种模态（包括语音、文本和视觉）的信息聚合的密度自适应Transformer（DAT）。DAAM将可学习的均值和方差集成到其注意力机制中，并在多头框架中实现，使其能够共同建模任何概率分布，以动态重新校准特征重要性。该方法证明了显著的改进，尤其是在高度非平稳数据的情况下，在模型性能方面超过了最先进的注意力技术，准确率提高了约 +20%（绝对值）。根据经验，DAAM在各种任务中表现出优越的适应性和有效性，包括语音情感识别、图像分类和文本分类，从而证明了其在处理跨多种模态数据的鲁棒性和通用性。此外，我们引入了重要性因子，这是一种新的基于学习的指标，它增强了使用基于DAAM的方法训练的模型的可解释性。

发布时间: 10/1/2024

查看原文

异质图学习综述：最新进展与未来方向

作者: Chenghua Gong, Yao Cheng, Jianxiang Yu, Can Xu, Caihua Shan, Siqiang Luo, Xiang Li

图数据是一种结构化数据，用于模拟现实世界实体之间的复杂关系。异质图，即连接的节点倾向于具有不同的标签或不同的特征，近年来引起了广泛关注，并在现实世界中得到了广泛应用。与此同时，人们在推进从异质图中学习方面付出了越来越多的努力。各种图异质性度量、基准数据集和学习范式正在迅速涌现。在本综述中，我们全面回顾了关于从异质图中学习的现有工作。首先，我们概述了超过 500 篇出版物，其中超过 340 篇与异质图直接相关。之后，我们调查了现有的图异质性度量，并列出了最新的基准数据集。此外，我们根据一个分层分类法对现有方法进行了系统分类，包括 GNN 模型、学习范式和实际应用。此外，还包括与图异质性相关的更广泛的主题。最后，我们讨论了现有研究的主要挑战，并重点介绍了未来研究的有希望的途径。

发布时间: 10/1/2024

查看原文

欺骗的艺术：利用动态堆叠触发器的鲁棒后门攻击

作者: Orson Mengara

机器学习即服务（MLaaS）领域由于人工智能（AI）行业的最新进展而得到了越来越广泛的应用。然而，这种激增引发了人们对人工智能防御机制的担忧，特别是关于来自无法完全信任的第三方提供者的潜在隐蔽攻击。最近的研究发现，音频后门可能利用某些修改作为其启动机制。DynamicTrigger 作为一种方法被引入，用于执行动态后门攻击，该攻击使用巧妙设计的调整来确保被破坏的样本与干净的样本无法区分。通过利用波动的信号采样率和通过动态声音触发器（例如拍手）掩盖说话者身份，可以欺骗语音识别系统 (ASR)。我们的实证测试表明，DynamicTrigger 既强大又隐蔽，在隐蔽攻击期间取得了令人印象深刻的成功率，同时在未中毒的数据集上保持了出色的准确性。

发布时间: 10/1/2024

查看原文

面向医疗时间序列的知识增强条件插补

作者: Linglong Qian, Joseph Arul Raj, Hugh Logan Ellis, Ao Zhang, Yuezhou Zhang, Tao Wang, Richard JB Dobson, Zina Ibrahim

我们提出了一种端到端的架构，用于管理从医院电子健康记录 (EHR) 中提取的多元时间序列中的复杂缺失值。我们的条件自注意力插补 (CSAI) 是一种循环神经网络架构，配备了许多技术，旨在通过使模型与临床数据典型的微妙时间和空间依赖关系相一致来提高插补精度。CSAI a) 利用基于注意力的隐藏状态初始化来捕获时间序列中的长距离和短距离相关性，b) 整合了知识嵌入技术来捕获临床数据记录模式，c) 采用非均匀掩蔽策略来适应其权重以适应数据的时间和横截面缺失模式。对三个 EHR 基准数据集的广泛评估表明，除了在下游任务中的性能外，CSAI 还增强了数据恢复方面的最新技术功效。此外，CSAI 集成在 PyPOTS Python 库中用于基准测试，为研究人员提供了开放的标准化基准测试功能和易用性。

发布时间: 10/1/2024

查看原文

可跳过子路径的自适应深度网络

作者: Woochul Kang, Hyungseop Lee

可预测地调整网络深度可以有效地控制推理延迟，满足各种设备的资源条件。然而，以往的自适应深度网络并没有提供关于为什么以及哪些层可以被跳过的通用原则和正式解释，因此，它们的方法难以推广，需要漫长而复杂的训练步骤。本文提出了一种实用的自适应深度网络方法，该方法适用于各种网络，训练工作量最小。在我们的方法中，每个层次化的残差阶段被划分为两个子路径，它们通过简单的自蒸馏策略被训练以获得不同的属性。虽然第一个子路径对于层次化特征学习至关重要，但第二个子路径被训练以细化学习到的特征，并在跳过该子路径时最小化性能下降。与之前的自适应网络不同，我们的方法不会以迭代的方式训练每个目标子网络。然而，在测试时，我们可以以组合的方式连接这些子路径，从单个网络中选择具有不同准确率-效率权衡的子网络。我们提供了关于为什么提出的训练方法可以减少整体预测误差，同时最小化跳过子路径的影响的正式理由。我们用卷积神经网络和 Transformer 演示了我们方法的通用性和有效性。

发布时间: 10/1/2024

查看原文

动感脚本：用于表达性 3D 人体动作的自然语言描述

作者: Payam Jome Yazdian, Eric Liu, Rachel Lagasse, Hamid Mohammadi, Li Cheng, Angelica Lim

本文提出了一种将动作转换为文本的算法 MotionScript，以及一种用于人体动作的自然语言表示。与之前的自然语言方法相比，MotionScript 提供了更详细、更准确的人体动作描述。大多数动作数据集侧重于基本的、定义明确的动作，表达方式的变化有限（例如，坐着、走路、运球）。但对于包含多种动作的表达性动作（例如，悲伤、跳舞），或对于标准动作捕捉数据集之外的动作（例如，风格化的行走、手语、与动物互动），需要更具体、更细粒度的自然语言描述。我们提出的 MotionScript 描述与现有的自然语言表示不同，因为它提供了详细的自然语言描述，而不是简单的动作标签或泛化的标题。据我们所知，这是首次尝试将 3D 动作翻译成自然语言描述，而无需训练数据。我们的实验表明，当将 MotionScript 描述应用于文本到动作的任务时，可以使大型语言模型生成复杂、以前从未见过的动作。更多示例、数据集和代码可在 https://pjyazdian.github.io/MotionScript 获取。

发布时间: 10/1/2024

查看原文

通过精心策划的数据分布特性在视觉-语言模型中引发视频的上下文学习

作者: Keunwoo Peter Yu, Zheyuan Zhang, Fengyuan Hu, Shane Storks, Joyce Chai

大型语言模型（LLMs）凭借其**上下文学习**能力在许多自然语言处理任务中取代了传统方法，该能力使它们能够通过少量相关演示来快速适应下游文本任务。虽然最近开发了大型视觉语言模型（VLMs）来处理需要文本和图像的任务，但它们在视觉信息的上下文学习方面普遍缺乏，特别是在理解和生成有关视频的文本方面。在这项工作中，我们实现了**E**mergent **I**n-context **Le**arning on **V**ideos（\eilev{}），这是一种新颖的训练范式，通过捕捉先前工作发现的预训练数据中对 Transformer 中上下文学习至关重要的关键属性，在视频和文本上诱导上下文学习。在我们的实验中，我们表明，在新的、罕见的动作方面，经过 \eilev{} 训练的模型在少样本视频叙述方面优于其他现成的 VLMs。此外，我们证明了这些关键属性，即突发分布、偏斜边缘分布和动态含义，分别在不同程度上促成了 VLMs 在叙述过程视频方面的上下文学习能力。我们的结果、分析和 \eilev{} 训练的模型为视频和文本上的上下文学习的出现提供了许多见解，为未来工作优化和扩展 VLMs 以用于开放域视频理解和推理奠定了基础。我们的代码和演示可在 \url{https://github.com/yukw777/EILEV} 获取。

发布时间: 10/1/2024

查看原文

受中央运动系统启发的机器人控制预训练强化学习

作者: Pei Zhang, Zhaobo Hua, Jinliang Ding

智能机器人的开发需要能够处理动态环境和不断变化的任务的控制策略。预训练强化学习已成为解决这些需求的有效方法，它使机器人能够获得可重复使用的运动技能。然而，它们通常依赖于大型数据集或专家设计的目标空间，限制了适应性。此外，这些方法需要帮助在高维状态空间中生成动态和多样化的技能，降低了它们在后续任务中的有效性。在本文中，我们提出了 CMS-PRL，这是一种受中央运动系统 (CMS) 启发的预训练强化学习方法。首先，我们引入了一种融合奖励机制，将基本运动奖励与互信息奖励相结合，在没有依赖外部数据的情况下，促进在预训练期间发现动态技能。其次，我们设计了一种受基底神经节运动程序启发的技能编码方法，在预训练期间提供丰富且连续的技能指令。最后，我们提出了一种技能活动函数来调节运动技能活动，从而能够生成具有不同活动水平的技能，从而提高机器人在下游任务中的灵活性。我们在四种类型的机器人上对该模型进行了评估，这些机器人在一组具有挑战性的稀疏奖励任务中执行。实验结果表明，CMS-PRL 生成了多种可重复使用的运动技能来解决各种下游任务，并且优于基线方法，尤其是在高自由度机器人和复杂任务中。

发布时间: 10/1/2024

查看原文

通过对抗行为抑制 Q 学习中的高估问题

作者: HyeAnn Lee, Donghwan Lee

本文旨在提出一种新的具有虚拟对抗玩家的 Q 学习算法，称为虚拟对抗 Q 学习 (DAQ)，该算法可以有效地调节标准 Q 学习中的过高估计偏差。有了虚拟玩家，学习可以被表述为一个二人零和博弈。所提出的 DAQ 将几种 Q 学习变体统一起来，以控制过高估计偏差，例如 maxmin Q 学习和 minmax Q 学习（本文提出），在一个框架内。所提出的 DAQ 是一种简单但有效的方法，可以通过虚拟对抗行为来抑制过高估计偏差，并且可以很容易地应用于现成的强化学习算法以提高性能。通过调整对抗性 Q 学习，从一个综合的角度分析了 DAQ 的有限时间收敛性。在各种基准环境下对建议的 DAQ 的性能进行了实证验证。

发布时间: 10/1/2024

查看原文