arXiv 论文列表

作者: Zehong Wang, Zheyuan Zhang, Tianyi Ma, Nitesh V Chawla, Chuxu Zhang, Yanfang Ye

arXiv:2501.18739v1 宣告类型: cross 摘要: 图学习任务要求模型理解对下游任务而言至关重要的子结构模式，例如社交网络中的三元闭包和分子图中的苯环。由于图的非欧几里得性质，现有的图神经网络（GNN）依赖于消息传递机制，通过迭代聚合局部邻域的信息。尽管它们在实验中表现出色，但消息传递在识别基本子结构，如三角形方面存在困难，限制了其表示能力。为了克服这一局限，我们提出了神经图模式机（GPM）框架，该框架旨在直接从图模式中学习。GPM能够高效地提取和编码子结构，并识别对下游任务最相关的子结构。我们还证明，GPM在表达能力和长距离信息建模方面优于消息传递。在节点分类、链接预测、图分类和回归任务上的实证评估表明，GPM优于最先进的基线方法。进一步的分析揭示了其期望的离分布鲁棒性、可扩展性和可解释性。我们认为GPM是超越消息传递的一个步骤。

发布时间: 2/3/2025

查看原文

融合LMM规划器和3D技能策略以实现通用操作

作者: Yuelei Li, Ge Yan, Annabella Macaluso, Mazeyu Ji, Xueyan Zou, Xiaolong Wang

arXiv:2501.18733v1 公告类型：跨领域摘要：近年来，大型多模态模型（LMMs）在视觉推理能力方面的进步以及3D特征场的语义丰富化，扩展了机器人能力的边界。这些进步在高阶推理与低阶控制策略之间架起桥梁方面具有巨大的潜力。在这项工作中，我们引入了LMM-3DP框架，该框架能够集成LMM规划器和3D技能策略。我们的方法包含三个主要视角：高阶规划、低阶控制和有效的集成。在高阶规划方面，LMM-3DP支持动态场景理解以应对环境干扰、带有自我反馈的评论代理、历史策略记忆以及失败后的重新尝试。在低阶控制方面，LMM-3DP利用语义感知的3D特征场实现精确操作。为了使高阶和低阶控制与机器人行动相协调，通过3D变压器中的联合注意力机制，用语言嵌入表示的高阶策略与3D特征场对齐，实现无缝集成。我们在真实的厨房环境中对多种技能和长视距任务进行了广泛的评估。结果显示，相比基于LLM的基本方法，低阶控制的成功率提高了1.45倍，高阶规划的准确性提升了大约1.5倍。LMM-3DP的演示视频和概述可在https://lmm-3dp-release.github.io 获取。

发布时间: 2/3/2025

查看原文

探索以用户为中心的音频编辑特征作为对抗情绪推断攻击的隐私防护方法

作者: Mohd. Farhan Israk Soumik, W. K. M. Mithsara, Abdur R. Shahid, Ahmed Imteaj

arXiv:2501.18727v1 类别：cross 摘要：语音启用技术的迅速普及，包括虚拟助手、视频会议平台和可穿戴设备，引发了重大的隐私担忧，特别是在从音频数据中推断敏感情感信息方面。现有的隐私保护方法通常会在易用性和安全性之间做出妥协，从而限制了它们在实际场景中的应用。本文提出了一种新颖的用户中心方法，利用熟悉的音频编辑技术，特别是音高和节奏修改，来保护情感隐私，而不牺牲易用性。通过对安卓和iOS平台上的流行音频编辑应用程序进行分析，我们发现这些功能既广泛可用又易于使用。我们严格评估了它们在面对来自包括深度神经网络（DNNs）、大型语言模型（LLMs）和可逆性测试在内的多种来源的恶意攻击时的效果。我们在三个不同的数据集上进行的实验表明，音高和节奏修改有效地遮蔽了情感数据。此外，我们还探讨了轻量级、设备端实现的设计原则，以确保其在各种设备和平台上的广泛适用性。

发布时间: 2/3/2025

查看原文

大规模并行化通过行为变异扩展策略梯度的质量多样性

作者: Konstantinos Mitsides, Maxence Faldor, Antoine Cully

arXiv:2501.18723v1 交叉公告类型摘要：质量多样性优化是一类旨在生成多样化和高性能解决方案的进化算法。MAP-Elites (ME) 是其中的一个著名例子，被有效应用于进化机器人学等领域。然而，ME 对遗传算法中的随机突变依赖性限制了其进化高维解决方案的能力。为克服这个问题，提出了使用基于梯度的操作符，如策略梯度或自然进化策略的方法。虽然这些方法在神经进化中成功地扩大了 ME 的规模，但它们往往存在训练速度慢的问题，或者在大规模并行化时由于高计算需求或依赖于中心化演员-评论家训练而导致扩展困难。在本文中，我们提出了一种基于 ME 的快速、样本高效算法，该算法能够通过大规模并行化显著降低运行时间，而不牺牲性能。我们的方法 ASCII-ME 与现有的基于策略梯度的质量多样性方法不同，不依赖于中心化演员-评论家训练。它根据时间步长性能指标执行行为变化，并使用策略梯度将这些变化映射到解决方案。我们的实验表明，ASCII-ME 在单个 GPU 上可以少于 250 秒生成多样化的高性能深度神经网络策略。此外，它在平均情况下比当前最好的算法快五倍，同时仍保持了竞争性的样本效率。

发布时间: 2/3/2025

查看原文

使用参数高效 LoRA 微调和多模态 LLaMA 实现高准确率的心电图图像解析

作者: Nandakishor M, Anjali M

arXiv:2501.18670v1 类型：交叉摘要：心电图（ECG）解读是心脏诊断的核心。本文探讨了一种实用的方法，通过使用多模态LLaMA 3.2模型来增强ECG图像的解读。我们使用了一种参数高效调优策略，即低秩适应（LoRA），专门设计用于提高模型理解ECG图像的能力，并在广泛的心脏疾病情况下取得更好的结果。我们的方法针对ECG分析进行了定制，并利用了一个包含100万个样本的大型指令数据集ECGInstruct。这个数据集是一个由从如MIMIC-IV ECG和PTB-XL等可信赖的开源存储库生成的原始ECG数据合成而成的丰富ECG图像集合。ECGInstruct中的每个ECG图像都配备了由专家编写的问题和详细的答案，涵盖了多种多样的ECG解读场景，包括心肌梗死和传导障碍等复杂心脏状况。我们的调优方法通过结合低秩适应技术高效地适应了基于LLaMA 3构建的LLaMA 3.2模型，特别关注效率，仅更新一小部分参数，而不更新`lm_head`和`embed_tokens`层。本文详细介绍了模型设置、高效调优方法以及实施细节。我们通过广泛的实验进行了全面的评估，表明我们的方法在各种ECG解读任务中表现出色。结果表明，我们的参数高效LoRA调优在ECG图像解读中取得了卓越的性能，显著优于基线模型，并在识别广泛心脏异常方面达到或超过了传统的基于CNN的方法的准确性，包括PTB-XL数据集中超过70种条件的识别。

发布时间: 2/3/2025

查看原文

“隐秘安全”的陷阱及其对透明AI的含义

作者: Peter Hall, Olivia Mundahl, Sunoo Park

arXiv:2501.18669v1 透明度类型：交叉摘要：来自监管者、研究人员和用户等各个利益相关方对AI系统的透明度要求正在日益增多且紧迫，相比之下，开发AI的公司相对较少。对于AI的透明度概念众多，每个概念都关注不同的利益和关切。在计算机安全领域，透明度也被视为一个关键概念。安全社区长期以来一直抵制所谓的“安全即隐蔽”——即认为隐藏系统的工作原理可以防止攻击的观点——这种观点受到了行业及其他利益相关方的巨大压力。几十年来，在一个不完美且不断进行的社区过程中，安全研究人员和实践者逐渐建立了一些关于如何平衡透明度利益与潜在的负面副作用的规范和实践。本文提出一个问题：AI社区可以从安全社区在透明度方面的经验中学到什么？我们识别了安全社区在透明度益处及如何平衡透明度与反向利益方面的三个关键主题。针对每个主题，我们探讨了与AI的透明度相关的平行和见解。然后，我们提供了有关透明度如何影响匿名化这一研究子领域的案例研究讨论。最后，从相似之处转向差异之处，我们突出了现代AI系统所面临的与其它类型的安全关键系统不同的透明度问题，从安全和AI社区共同提出了一些有趣的研究问题。

发布时间: 2/3/2025

查看原文

列表排序变换器中的结构发展

作者: Einar Urdshals, Jasmina Urdshals

arXiv:2501.18666v1 Announce Type: cross 摘要：我们研究了一层注意力机制变压器在学习排序数字列表时如何发展出相关的结构。训练结束后，该模型在其注意力头的组织中形成了两种主要模式，我们称之为词汇分割和复制抑制。这两种模式都比多个头处理重叠的数字范围要简单。有趣的是，无论我们是否使用重量衰减（一种常见的正则化技术，被认为能够推动简化），词汇分割都会出现，这支持了神经网络自然偏好更简单解决方案的观点。我们将复制抑制与GPT-2中的一个机制联系起来，并研究其在我们模型中的功能作用。受到对该模型发育分析的见解指导，我们识别出了训练数据中的特征，这些特征驱动了模型最终获得的解决方案。这为未来的研究提供了一个具体的实例，说明训练数据如何塑造变压器的内部组织，为帮助我们更好地理解大语言模型如何发展其内部结构提供了途径。

发布时间: 2/3/2025

查看原文

BARNN：一个贝叶斯自回归和循环神经网络

作者: Dario Coscia, Max Welling, Nicola Demo, Gianluigi Rozza

arXiv:2501.18665v1公告类型: 交叉摘要：自回归和递归网络在各个领域都取得了显著进展，从天气预报到分子生成和大型语言模型。尽管这些模型具有强大的预测能力，但在科学应用如偏微分方程求解、分子生成和机器学习力场中，它们缺乏一个严谨的不确定性处理框架，这是关键。为了弥补这一不足，我们提出了一种变分贝叶斯自回归和递归神经网络——BARNN (Bayesian Autoregressive and Recurrent Neural Network)。BARNNs 的目标是提供一种原则性的方式，将任何自回归或递归模型转化为其贝叶斯版本。BARNN 以变分丢弃方法为基础，允许将其应用于大型递归神经网络。此外，我们引入了“变分后验混合物”的时间版本（tVAMP-prior）以提高贝叶斯推断的效率和准确性。在偏微分方程建模和分子生成的广泛实验中，BARNN 不仅在准确度方面实现了与现有方法相似或更优的结果，还在此基础上在不确定性量化和建模长程依赖方面表现出色。

发布时间: 2/3/2025

查看原文

高光谱图像超分辨率中的上采样层再思考

作者: Haohan Shi, Fei Zhou, Xin Sun, Jungong Han

arXiv:2501.18664v1 跨领域公告类型摘要：深度学习在单谱高光谱图像超分辨（SHSR）方面取得了显著的成功；然而，高光谱维度导致了计算负担沉重，从而使其难以在实时场景中部署。为了解决这个问题，本文提出了一种新的轻量级SHSR网络，即LKCA-Net，该网络结合了通道注意机制，用以校准高光谱图像的多尺度通道特征。此外，我们首次证明，在轻量级SHSR方法中，具有可学习上采样层的低秩性质是一个关键瓶颈。为了解决这个问题，我们采用了低秩近似策略来优化可学习上采样层的参数冗余。此外，我们引入了一种基于知识蒸馏的特征对齐技术，以确保低秩近似网络保留与原始网络相同的特征表示能力。我们在Chikusei、Houston 2018和Pavia Center数据集上进行了广泛的实验，与一些SOTA方法进行了比较。结果显示，我们的方法在性能上具有竞争力，同时相比其他表现良好的SHSR方法，速度提高了几十倍到几百倍。

发布时间: 2/3/2025

查看原文

边缘-云大语言模型系统中提示安全与系统性能的联合优化

作者: Haiyang Huang, Tianhui Meng, Weijia Jia

arXiv:2501.18663v1 安全公告类型：交叉摘要：大型语言模型（LLMs）大大促进了人类生活，而提示工程则提高了这些模型的效率。然而，近年来，被提示工程技术赋能的攻击日益增多，导致隐私泄露、延迟增加和系统资源浪费等问题。尽管提出了基于人类反馈强化学习（RLHF）的安全微调方法来调整LLMs，但现有的安全机制无法应对变幻莫测的提示攻击，突显了在提示上进行安全检测的必要性。在本文中，我们考虑了边缘-云大型语言模型（EC-LLM）系统在各种提示攻击下的提示安全性、服务延迟和系统资源优化。为了增强提示安全性，我们提出了一种基于向量数据库的轻量级攻击检测器。我们将联合提示检测、延迟和资源优化的问题形式化为多阶段动态贝叶斯博弈模型。在每一阶段，通过贝叶斯更新预测恶意任务的数量并更新信念，以确定均衡策略。我们将在一个实际部署的EC-LLM系统上评估提出的方案，并且结果显示，我们的方法提供了增强的安全性，减少了良性用户的服务延迟，并且减少了系统资源消耗，优于现有算法。

发布时间: 2/3/2025

查看原文