arXiv 论文列表

脑-JEPA：基于梯度定位和时空掩码的脑动力学基础模型

作者: Zijian Dong, Ruilin Li, Yilei Wu, Thuan Tinh Nguyen, Joanna Su Xian Chong, Fang Ji, Nathanael Ren Jie Tong, Christopher Li Hsian Chen, Juan Helen Zhou

我们提出了 Brain-JEPA，一个基于联合嵌入预测架构 (JEPA) 的脑动力学基础模型。该开创性模型在微调后，在人口统计预测、疾病诊断/预后和特征预测方面取得了最先进的性能。此外，它在现成的评估（例如，线性探测）中表现出色，并展示了跨不同种族群体的优越泛化能力，显著优于之前的脑活动大型模型。Brain-JEPA 整合了两种创新技术：脑梯度定位和时空掩蔽。脑梯度定位为脑功能分区引入了功能坐标系，增强了不同感兴趣区域 (ROI) 的位置编码。时空掩蔽针对 fMRI 数据的独特特征，解决了异质时间序列补丁的挑战。这些方法提高了模型性能，并增进了我们对认知背后的神经回路的理解。总的来说，Brain-JEPA 为解决在 AI-神经科学界面建立脑功能坐标系和掩蔽脑活动的重大问题铺平了道路，并通过下游适应为脑活动分析设定了潜在的新范式。

发布时间: 10/1/2024

查看原文

基于优化 BERT 模型的 5G 生态系统高效联邦入侵检测

作者: Frederic Adjewa, Moez Esseghir, Leila Merghem-Boulahia

第五代 (5G) 网络提供了先进的服务，支持物联网 (IoT) 中的智能交通、互联医疗和智慧城市等应用。然而，这些进步带来了重大的安全挑战，网络攻击日益复杂。本文提出了一种基于联邦学习和大型语言模型 (LLMs) 的鲁棒入侵检测系统 (IDS)。我们的 IDS 的核心基于 BERT，这是一种用于识别恶意网络流的 Transformer 模型。我们对该 Transformer 模型进行了改进，以优化其在资源有限的边缘设备上的性能。实验在集中式和联邦学习环境中进行。在集中式环境中，模型的推理精度达到了 97.79%。在联邦学习环境中，该模型在多个设备上使用 IID（独立同分布）和非 IID 数据进行训练，基于各种场景，确保数据隐私并遵守相关规定。我们还利用线性量化压缩模型，以便在边缘设备上部署。这种压缩导致模型大小减少了 28.74%，精度略微下降了 0.02%。结果表明，LLMs 可用于部署在物联网生态系统中，突出了它们在计算和存储资源受限的设备上运行的能力。

发布时间: 10/1/2024

查看原文

一种新型 CMOS 高并行、低功耗、多芯片神经网络加速器的协同设计

作者: W Hokenmaier, R Jurasek, E Bowen, R Granger, D Odom

为什么安全摄像头、传感器和 Siri 使用云服务器而不是机载计算？缺乏超低功耗、高性能芯片极大地限制了无缆边缘设备的部署能力。我们推出了 NV-1，一种新型低功耗 ASIC AI 处理器，通过大量并行组合的处理器-内存单元，即一种极不冯·诺依曼的架构，实现了并行处理的显著加速（> 10 倍）和能耗的大幅降低（> 100 倍），从而允许大量独立的处理流在没有典型单片内存造成的瓶颈的情况下运行。当前的初始原型芯片诞生于算法和软件驱动的架构设计与 VLSI 设计现实之间的成功联合开发努力。一种创新的通信协议最大限度地减少了功耗，并且通过消除地址总线，通过本地目标地址匹配，节点之间的数据传输成本大幅降低。在整个开发过程中，软件和架构团队能够与电路设计团队的实施工作并行创新。早期开发了拟议硬件的数字孪生，以确保技术实施满足架构规范，并且预测的性能指标现已在实际硬件测试数据中得到全面验证。该设备目前正在一个部署的边缘传感器应用程序中使用；正在进行额外的原理验证，以证明这种新型现实世界超低功耗高性能 ASIC 设备的实际应用。

发布时间: 10/1/2024

查看原文

基于 \emph{TxGraffiti} 的数学自动猜想生成

作者: Randy Davila

**TxGraffiti** 是一款基于数据驱动和启发式算法的计算机程序，旨在自动生成跨越多个数学领域的猜想。自 2017 年创建以来，**TxGraffiti** 促成了大量数学出版物的发表，特别是在图论领域。本文介绍了 **TxGraffiti** 的设计和核心原则，包括其源自最初的 **Graffiti** 程序的根源，该程序率先实现了数学猜想的自动化。我们描述了数据收集过程、可信猜想的生成以及诸如 **Dalmatian** 启发式算法之类的用于过滤冗余或传递猜想的技术。此外，我们还重点介绍了 **TxGraffiti** 对数学文献的贡献，并介绍了一个新的基于 Web 的界面，允许用户以交互方式探索猜想。虽然我们重点关注图论，但所展示的技术可以扩展到数学的其他领域。

发布时间: 10/1/2024

查看原文

DOTA：视觉-语言模型的分布式测试时自适应

作者: Zongbo Han, Jialong Yang, Junfan Li, Qinghua Hu, Qianli Xu, Mike Zheng Shou, Changqing Zhang

视觉语言基础模型（例如 CLIP）在各种任务中表现出了非凡的性能。然而，当训练数据和测试数据之间存在显著的分布差异时，部署这些模型可能不可靠。训练无关的测试时动态适配器（TDA）是一种有希望的方法，它通过存储代表性的测试样本以指导后续样本的分类来解决这个问题。然而，TDA 只是简单地将有限数量的参考样本保存在缓存中，当通过丢弃样本更新缓存时，会导致严重的测试时灾难性遗忘。在本文中，我们提出了一种简单但有效的方法，用于分布式测试时自适应（Dota）。Dota 并非简单地记忆代表性的测试样本，而是持续估计测试样本的分布，使模型能够持续适应部署环境。然后，根据贝叶斯定理，使用估计的分布计算测试时的后验概率，以进行自适应。为了进一步增强不确定样本的可适应性，我们引入了一种新的“人机交互”范式，它识别不确定样本，收集人工反馈，并将反馈整合到 Dota 框架中。大量的实验验证了 Dota 使 CLIP 能够持续学习，与当前最先进的方法相比取得了显著的改进。

发布时间: 10/1/2024

查看原文

弥合差距：利用对齐促进缺失模态脑肿瘤分割

作者: Tianyi Liu, Zhaorui Tan, Haochuan Jiang, Xi Yang, Kaizhu Huang

脑肿瘤分割通常基于多种磁共振成像（MRI）。然而，在临床实践中，某些 MRI 模态可能缺失，这会导致更困难的情况。为了应对这一挑战，知识蒸馏已成为一种很有前景的策略。然而，最近的努力通常忽略了模态差距，因此无法学习跨不同模态的不变特征表示。这种缺点导致教师和学生的表现有限。为了改善这些问题，本文提出了一种新范式，该范式将相关模态的潜在特征对齐到一个定义明确的分布锚点。作为一项重大贡献，我们证明了我们新颖的训练范式确保了紧密的证据下界，从而从理论上证明了其有效性。在不同主干上的大量实验验证了所提出的范式可以实现不变特征表示，并产生模态差距缩小的教师。这进一步为缺失模态学生提供了更好的指导，在骰子得分上平均提高了 1.75。

发布时间: 10/1/2024

查看原文

基于扩散模型的条件图像生成：综述

作者: Zheyuan Zhan, Defang Chen, Jian-Ping Mei, Zhenghe Zhao, Jiawei Chen, Chun Chen, Siwei Lyu, Can Wang

基于用户指定需求的条件图像合成是创建复杂视觉内容的关键组成部分。近年来，基于扩散的生成模型已成为一种高度有效的方式，用于条件图像合成，并在文献中呈指数级增长。然而，基于扩散的模型的复杂性、图像合成任务的广泛范围以及条件机制的多样性，给研究人员带来了重大挑战，使他们难以跟上快速发展并理解该主题的核心概念。在本综述中，我们根据条件如何整合到基于扩散的模型的两个基本组件（即降噪网络和采样过程）中，对现有工作进行分类。我们重点介绍了在训练、重新利用和专业化阶段构建所需降噪网络的各种条件方法的底层原理、优势和潜在挑战。我们还总结了基本采样过程中的六种主流条件机制。所有讨论都围绕着流行的应用展开。最后，我们指出了未来需要解决的一些关键但仍然存在的问题，并提出了一些可能的解决方案。我们审查过的作品列在 https://github.com/zju-pi/Awesome-Conditional-Diffusion-Models。

发布时间: 10/1/2024

查看原文

多智能体游戏中模仿学习的策略表征学习

作者: Shiqi Lei, Kanghon Lee, Linjing Li, Jinkyoo Park

多智能体博弈中模仿学习的离线数据集通常包含展现多种策略的玩家轨迹，这需要采取措施来防止学习算法习得不良行为。对这些轨迹进行表征学习是有效地描绘每个示范者所使用策略的方法。然而，现有的学习策略往往需要玩家识别或依赖强假设，这些假设并不适用于多智能体博弈。因此，本文提出了策略表征模仿学习 (STRIL) 框架，它 (1) 有效地学习多智能体博弈中的策略表征，(2) 基于这些表征估计提出的指标，以及 (3) 使用这些指标过滤掉次优数据。STRIL 是一种插件方法，可以集成到现有的模仿学习算法中。我们在包括双人乒乓球、德州扑克限注版和井字棋在内的多个竞争性多智能体场景中证明了 STRIL 的有效性。我们的方法成功地获得了策略表征和指标，从而识别出主导性轨迹，并显著提高了这些环境中现有模仿学习的性能。

发布时间: 10/1/2024

查看原文

ECCV 2024 多视角自我中心手部跟踪挑战赛解决方案

作者: Minqiang Zou, Zhi Lv, Riqiang Jin, Tian Zhan, Mochen Yu, Yao Tang, Jiajun Liang

多视角自我中心手部跟踪是一个具有挑战性的任务，在 VR 交互中起着至关重要的作用。本报告提出了一种利用多视角输入图像和相机外参来估计手部形状和姿态的方法。为了减少对相机布局的过度拟合，我们应用了裁剪抖动和外参噪声增强。此外，我们提出了一种离线神经平滑后处理方法，以进一步提高手部位置和姿态的精度。我们的方法在 Umetrack 数据集上取得了 13.92 毫米 MPJPE，在 HOT3D 数据集上取得了 21.66 毫米 MPJPE。

发布时间: 10/1/2024

查看原文

多模态大型语言模型上的视觉问题分解

作者: Haowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu

大型语言模型（LLMs）在许多自然语言处理任务中已经取代了传统方法。然而，在命名实体识别（NER）方面，现有的基于LLMs的方法...

发布时间: 10/1/2024

查看原文