arXiv 论文列表

作者: Subarnaduti Paul, Manuel Brack, Patrick Schramowski, Kristian Kersting, Martin Mundt

深度网络经常被调整以适应新的任务，并持续从不断更新的数据流中学习。这种顺序训练需要整合新旧信息，这是一个主要通过保留最重要数据点（正式称为核心集）来解决的挑战。传统上，这些核心集由完整的样本组成，例如图像或句子。然而，最近的 Transformer 架构在标记上进行操作，导致了著名的断言：一张图像值 16x16 个词。直观地，并非所有这些标记都具有同等的信息量或记忆性。因此，我们超越核心集，提出在标记级别构建更深层次的数据摘要。我们分别命名的核心标记集既选择了信息量最大的数据点，又利用特征归因来仅存储其最相关的特征。我们证明了核心标记集在增量图像分类、开放式视觉问答和持续图像字幕中获得了显著的性能保留，同时显着减少了内存消耗。事实上，我们根据经验发现，1% 的数据核心标记集的性能与至少两倍大，甚至高达 10 倍大的核心集相当。

发布时间: 10/10/2024

查看原文

“献给爱丽丝”：捕捉并物理合成钢琴演奏的手部动作

作者: Ruocheng Wang, Pei Xu, Haochen Shi, Elizabeth Schumann, C. Karen Liu

钢琴演奏需要敏捷、精确和协调的双手控制，这挑战了人类灵巧性的极限。能够精确再现钢琴演奏的复杂手部运动模型在角色动画、具身人工智能、生物力学和 VR/AR 等领域有着广泛的应用。本文构建了首个大型数据集，包含来自 15 位精英级钢琴家演奏 153 首古典音乐作品的约 10 小时 3D 手部运动和音频数据。为了捕捉自然演奏，我们设计了一种无标记的设置，使用最先进的姿态估计模型从多视角视频中重建运动。通过使用来自专门的雅马哈 Disklavier 钢琴传感器的⾼分辨率 MIDI 键按下数据，使用逆运动学进一步优化运动数据。利用收集的数据集，我们开发了一条管道，可以为数据集之外的乐谱合成物理上合理的⼿部运动。我们的方法结合了模仿学习和强化学习，以获得基于物理的双⼿控制策略，包括⼿与钢琴键之间的交互。为了解决大型运动数据集的采样效率问题，我们使用扩散模型来生成自然的参考运动，这些运动提供高水平的轨迹和指法（手指顺序和放置）信息。然而，仅凭生成的参考运动不足以提供钢琴演奏建模所需的精度。然后，我们通过使用音乐相似性从捕获的数据集中检索类似运动来进一步增强数据，以提高 RL 策略的精度。通过提出的方法，我们的模型生成了自然的、灵巧的运动，这些运动可以推广到训练数据集之外的音乐。

发布时间: 10/10/2024

查看原文

LightRAG：简单高效的检索增强生成模型

作者: Zirui Guo, Lianghao Xia, Yanhua Yu, Tu Ao, Chao Huang

检索增强生成（RAG）系统通过整合外部知识源来增强大型语言模型（LLM），从而能够根据用户需求提供更准确、更符合语境的响应。然而，现有的 RAG 系统存在重大局限性，包括依赖于平面数据表示以及缺乏足够的上下文意识，这会导致答案支离破碎，无法捕捉复杂的相互依赖关系。为了解决这些挑战，我们提出了 LightRAG，它将图结构融入文本索引和检索过程。这个创新的框架采用了一个双层检索系统，从低级和高级知识发现中增强了全面的信息检索。此外，图结构与向量表示的集成促进了相关实体及其关系的有效检索，显著提高了响应时间，同时保持了上下文相关性。这种能力通过增量更新算法得到进一步增强，该算法确保及时整合新数据，使系统能够在快速变化的数据环境中保持有效性和响应能力。大量的实验验证表明，与现有方法相比，检索精度和效率都有了显著提高。我们已将 LightRAG 开源，可在以下链接获得：https://github.com/HKUDS/LightRAG。

发布时间: 10/10/2024

查看原文

集成编码与量化以增强卷积神经网络

作者: Daniele Lizzio Bosco, Beatrice Portelli, Giuseppe Serra

图像处理是量子机器学习 (QML) 最有前景的应用之一。具有不可训练参数的量子卷积神经网络是当前和未来量子设备的首选解决方案。量子卷积层的典型输入预处理流程包括四个步骤：可选的输入二进制量化、将经典数据编码成量子态、处理数据以获得最终的量子态、将量子态解码回经典输出。本文提出了两种方法来提高量子卷积模型的效率。首先，我们提出了一种灵活的数据量化方法，并结合了记忆化，适用于任何编码方法。这使我们能够增加量化级别数量以保留更多信息，或者降低它们以减少电路执行量。其次，我们介绍了一种新的集成编码策略，它将编码和处理步骤组合到一个电路中。该方法允许在多个架构参数（例如，量子比特数、滤波器大小和电路深度）上具有很大的灵活性，使其可调整以满足量子硬件要求。我们在两个不同的分类任务上，将我们提出的集成模型与经典卷积神经网络和著名的旋转编码方法进行了比较。结果表明，我们提出的模型编码在需要更少的量子资源的情况下，表现出与其他模型相当或更好的性能。

发布时间: 10/10/2024

查看原文

仅需接地？用于视频对话的双重时间接地

作者: You Qin, Wei Ji, Xinze Lan, Hao Fei, Xun Yang, Dan Guo, Roger Zimmermann, Lizi Liao

在视频对话响应生成领域，理解视频内容和对话历史的时间细微差别至关重要。虽然当前研究的一部分严重依赖于大规模预训练的视觉语言模型，而往往忽略了时间动态，但另一部分则深入研究了视频中的时空关系，但需要复杂的物体轨迹预提取，并忽略了对话时间动态。本文介绍了双时间接地增强视频对话模型 (DTGVD)，旨在策略性地融合两种主流方法的优势。它强调双重时间关系，通过预测对话回合特定的时间区域，相应地过滤视频内容，并将响应接地到视频和对话语境中。DTGVD 的一个突出特点是它对时间相互作用的高度关注。通过识别和利用不同对话回合之间的依赖关系，它捕捉到更细微的对话动态。为了进一步增强视频和对话时间动态之间的对齐，我们实施了一种列表式对比学习策略。在这个框架内，准确接地的回合剪辑对被指定为正样本，而不太精确的配对被归类为负样本。这种细化的分类然后被引导到我们整体的端到端响应生成机制中。使用 AVSD@DSTC-7 和 AVSD@DSTC-8 数据集进行的评估强调了我们方法的优越性。

发布时间: 10/10/2024

查看原文

无训练扩散模型对齐与采样恶魔

作者: Po-Hung Yeh, Kuang-Huei Lee, Jun-Cheng Chen

将扩散模型与用户偏好对齐一直是一个关键挑战。现有的扩散模型对齐方法要么需要重新训练，要么局限于可微分的奖励函数。为了解决这些限制，我们提出了一种随机优化方法，称为 Demon，在推理时引导去噪过程，无需通过奖励函数或模型重新训练进行反向传播。我们的方法通过在去噪步骤中控制噪声分布来实现，通过随机优化将密度集中在对应于高奖励的区域。我们提供了全面的理论和实证证据来支持和验证我们的方法，包括使用不可微分奖励来源的实验，例如视觉语言模型 (VLM) API 和人工判断。据我们所知，所提出的方法是第一个推理时、无反向传播的扩散模型偏好对齐方法。我们的方法可以轻松地与现有的扩散模型集成，无需进一步训练。我们的实验表明，所提出的方法显着提高了文本到图像生成的平均美学得分。

发布时间: 10/10/2024

查看原文

通过引导的自注意力行为克隆策略学习软体任务的可泛化操作技能

作者: Xuetao Li, Fang Gao, Jun Yu, Shaodong Li, Feng Shuang

具身人工智能（Embodied AI）代表着人工智能研究中的一种范式，在这种范式中，人工代理位于物理或虚拟环境中并与之交互。尽管具身人工智能最近取得了进展，但学习能够处理软体物体（如粘土、水和土壤）上的大变形和拓扑变化的通用操作技能仍然非常具有挑战性。在这项工作中，我们提出了一种有效的策略，即 GP2E 行为克隆策略，它可以引导代理从软体任务中学习通用操作技能，包括倾倒、填充、悬挂、挖掘、捏取和书写。具体来说，我们从三个见解构建了我们的策略：（1）从点云数据中提取复杂的语义特征，并将它们无缝集成到机器人的末端执行器框架中；（2）通过结合我们的引导自注意力模块，捕获长时程任务中的长距离交互；（3）通过引入我们的两阶段微调策略，缓解过拟合问题并促进模型收敛到更高的精度水平。通过大量的实验，我们证明了我们的方法的有效性，在 CVPR 2023 第四届具身人工智能研讨会上的 ManiSkill2 挑战赛的软体赛道中获得了第一名。我们的发现突出了我们的方法在提高具身人工智能模型的泛化能力方面的潜力，并为其在现实世界场景中的实际应用铺平了道路。

发布时间: 10/10/2024

查看原文

深度神经网络在硬标签设置下的多项式时间密码分析提取

作者: Nicholas Carlini, Jorge Ch\'avez-Saab, Anna Hambitzer, Francisco Rodr\'iguez-Henr\'iquez, Adi Shamir

深度神经网络 (DNN) 具有宝贵的价值，但其公共可访问性引发了恶意行为者提取参数的安全问题。Carlini 等人 (crypto'20) 和 Canales-Martínez 等人 (eurocrypt'24) 的最新研究将这个问题与通过选择明文攻击提取分组密码密钥进行了类比。利用差分密码分析，他们证明了可以使用多项式数量的查询和计算时间推断出黑盒基于 ReLU 的 DNN 的所有权重和偏差。然而，他们的攻击依赖于输出 logits 的精确数值，这使得能够计算它们的导数。为了克服这一限制，Chen 等人 (asiacrypt'24) 解决了更现实的硬标签场景，在这种场景中，攻击者只能访问最终分类标签（例如，“狗”或“汽车”）。他们提出了一种提取方法，该方法需要多项式数量的查询，但执行时间呈指数级增长。此外，他们的方法仅适用于一组受限的架构，只能处理二元分类器，并且仅在最多具有四个神经元（最多分成两个隐藏层）的小型神经网络上进行了演示。本文介绍了新的技术，这些技术首次在最具挑战性的硬标签设置中实现了 DNN 参数的密码分析提取，使用多项式数量的查询和多项式时间。我们通过从在 CIFAR-10 数据集上训练的 DNN 中提取近一百万个参数来验证我们的方法，该 DNN 包含四个隐藏层中的 832 个神经元。我们的结果揭示了一个令人惊讶的事实，即基于 ReLU 的 DNN 的所有权重都可以通过仅分析其决策边界的几何形状来有效地确定。

发布时间: 10/10/2024

查看原文

基于主动探索和高斯过程回归的模型预测控制在极端转向场景下的赛车学习

作者: Guoqiang Wu, Cheng Hu, Wangjia Weng, Zhouheng Li, Yonghao Fu, Lei Xie, Hongye Su

赛车中极端转向往往会导致较大的侧滑角，这对车辆控制提出了严峻挑战。为了解决这个问题，本文提出了一种基于双高斯过程回归的主动探索系统（AEDGPR）。该系统首先利用高斯过程回归（GPR）补偿模型规划最小时间轨迹。规划结果表明，在转向路段，横摆角速度和侧滑角方向相反，表明车辆正在漂移。针对这一问题，我们开发了一种基于模型预测控制（MPC）的漂移控制器，并结合高斯过程回归来修正车辆动力学模型的偏差。此外，利用GPR的协方差主动探索不同的转向状态，旨在最小化轨迹跟踪误差。所提出的算法通过Simulink-Carsim平台上的仿真和使用1/10比例遥控车的实验进行了验证。

发布时间: 10/10/2024

查看原文

Array2BR：一种基于麦克风阵列信号的端到端抗噪双耳音频合成方法

作者: Cheng Chi, Xiaoyu Li, Andong Li, Yuxuan Ke, Xiaodong Li, Chengshi Zheng

远程临场感技术旨在为远程会议应用提供身临其境的虚拟存在感，合成高质量的双耳音频信号对于这一目标至关重要。由于环境噪声在实际应用场景中往往不可避免，因此直接从麦克风阵列信号中获得无噪声的双耳音频信号非常理想。为此，本文提出了一种新的端到端抗噪双耳音频合成框架，简称Array2BR，实验结果表明，该框架能够同时正确映射双耳线索并有效抑制噪声。与现有方法相比，该方法在客观和主观指标得分方面都取得了更好的性能。

发布时间: 10/10/2024

查看原文