arXiv 论文列表

作者: Zijian Zhao

arXiv:2407.08306v3 宣告类型: 替换-交叉摘要：作为音乐信息检索（MIR）的关键方面，符号音乐理解（SMU）因其有可能帮助音乐家和爱好者学习和创作音乐而引起了高度重视。最近，由于符号音乐和自然语言之间存在实质性的相似性，以及这些模型能够有效地利用有限的音乐数据，预训练语言模型在SMU中得到了广泛应用。然而，一些研究显示，像Masked Language Model (MLM)这样的常见预训练方法可能会引入类似种族歧视的偏差问题，在自然语言处理（NLP）中影响下游任务的性能，这也发生在SMU中。这种偏差常常发生在无法从上下文中推断出遮罩标记时，迫使模型过度拟合训练集而不是泛化。为了应对这一挑战，我们提出了Adversarial-MidiBERT，该模型通过一个遮罩网络自适应地决定在MLM过程中遮罩什么内容，而不是使用随机遮罩。通过避免遮罩难以从上下文中推断的标记，我们的模型更好地捕获了上下文结构和关系，而不是仅仅遵循训练数据分布。我们在四个SMU任务中评估了我们的方法，我们的方法在所有情况下都表现出色。我们的模型代码已经在https://github.com/RS2002/Adversarial-MidiBERT 公开可用。

发布时间: 5/1/2025

查看原文

大型模型实现无损数据压缩

作者: Ziguang Li, Chao Huang, Xuliang Wang, Haibo Hu, Cole Wyeth, Dongbo Bu, Quan Yu, Wen Gao, Xingwu Liu, Ming Li

arXiv:2407.07723v3 公告类型：替换-交叉摘要：在80年的研究、数以百万计的文章以及广泛的应用之后，现代数据压缩方法正逐渐达到其极限。然而， extravagant 的6G通信速度要求为革命性的新数据压缩想法提出了一个主要的开放问题。我们之前已经证明，在合理的假设下，所有理解和学习都是压缩。大语言模型（LLMs）比以往任何时候都更好地理解了数据。它们能否帮助我们压缩数据？LLMs 可以被视为对不可计算的索洛莫诺夫归纳法的近似。因此，在这个新的不可计算的范式下，我们提出了 LMCompress。LMCompress 突破了所有之前的无损压缩算法，将 JPEG-XL 图像、FLAC 音频和 H.264 视频的无损压缩比翻倍，并将 bz2 文本的压缩比提高四倍。大模型对数据理解得越好，LMCompress 的压缩效果就越好。

发布时间: 5/1/2025

查看原文

BEVWorld：基于场景级BEV潜在表示的多模态世界模拟器在自动驾驶中的应用

作者: Yumeng Zhang, Shi Gong, Kaixin Xiong, Xiaoqing Ye, Xiaofan Li, Xiao Tan, Fan Wang, Jizhou Huang, Hua Wu, Haifeng Wang

arXiv:2407.05679v3 宣告类型: replace-cross 摘要：世界模型因其对未来场景的预测能力而在自主驾驶中引起了越来越多的关注。本文提出了一种名为BEVWorld的新框架，该框架将多模态传感器输入转换为统一且紧凑的鸟瞰图（BEV）潜在空间，以实现全方位环境建模。所提出的世界模型包括两个主要组成部分：多模态分词器和潜在BEV序列扩散模型。多模态分词器首先编码异构感知数据，并通过投射光线渲染将其解码为激光雷达和360度视图图像观察，以自监督的方式重建潜在的BEV令牌。这使得能够在共享的空间表示中联合建模和双向编码全景图像和点云数据。在此基础上，潜在BEV序列扩散模型在高阶动作令牌的条件下进行未来场景的一致性预测，从而在时间尺度上实现场景级推理。大量的实验表明，BEVWorld在自主驾驶基准测试中具有有效性，展示了其在真实未来场景生成方面的能力以及在下游任务如感知和运动预测中的优势。

发布时间: 5/1/2025

查看原文

MedPix 2.0：一个全面的多模态生物医学数据集，用于高级AI应用

作者: Irene Siragusa, Salvatore Contino, Massimo La Ciura, Rosario Alicata, Roberto Pirrone

arXiv:2407.02994v4公告类型: 替换-交叉摘要：在医疗领域开发人工智能应用的兴趣日益增加，但由于缺乏高质量数据集，这一兴趣受到了阻碍，主要原因与隐私相关问题有关。此外，近年来大型多模态模型（LMM）的兴起促使需要多模态医疗数据集，其中临床报告和发现与相应的CT或MR扫描相关联。本文展示了构建MedPix 2.0数据集的整个工作流程。从广泛用于医生、护士和医疗保健学生继续医学教育的知名多模态数据集MedPix出发，开发了一个半自动流水线以提取视觉和文本数据，然后进行手动修复程序，删除噪声样本，从而创建了一个MongoDB数据库。除了数据集，我们还开发了一个GUI，旨在高效导航MongoDB实例，并获取可以直接用于训练和/或微调LMM的原始数据。为了强调这一点，我们还提出了一种基于CLIP的模型，该模型在MedPix 2.0上进行了训练，用于扫描模式和位置分类任务。MedPix 2.0可在GitHub上获取。

发布时间: 5/1/2025

查看原文

FADE：面向公平性aware生成的领域泛化分类器引导得分扩散模型

作者: Yujie Lin, Dong Li, Minglai Shao, Guihong Wan, Chen Zhao

arXiv:2406.09495v4 宣告类型: 替换-交叉摘要：公平性意识领域泛化（FairDG）已成为部署可信AI系统的关键挑战，尤其是在涉及分布转移的情景中。由于传统公平性处理方法未能考虑到分布转移，它们在领域泛化方面失败了。尽管去卷积被用于解决FairDG问题，但它受限于其强烈的假设。为了克服这些限制，我们提出了一种新的方法，即公平性意识分类器引导评分基于扩散模型（FADE），以有效解决FairDG问题。具体来说，我们首先预训练了一个评分基于扩散模型（SDM）和两个分类器，以增强模型在不同领域的泛化能力。然后，我们使用这些预训练的分类器来引导SDM，有效地从生成的数据中消除敏感信息。最后，生成的公平数据用于训练下游分类器，从而在新数据分布下确保稳健的性能。在三个真实世界数据集上的大量实验表明，FADE不仅能提高公平性，还能在存在分布转移的情况下提高准确性。此外，FADE在实现最佳准确率-公平性权衡方面优于现有方法。

发布时间: 5/1/2025

查看原文

解析下一代大语言模型分布式推理的AI平台设计

作者: Abhimanyu Bambhaniya, Ritik Raj, Geonhwa Jeong, Souvik Kundu, Sudarshan Srinivasan, Suvinay Subramanian, Midhilesh Elavazhagan, Madhu Kumar, Tushar Krishna

arXiv:2406.01698v2 宣布类型: 替换-交叉摘要：大规模语言模型（LLMs）在广泛的应用中展现出了显著的性能，经常超越人类专家。然而，为了有效地为多样的推理应用场景部署这些庞大的模型，需要精心设计的硬件平台，具有充足的计算、内存和网络资源。随着LLM服务优化的不断创新和模型架构以令人难以置信的速度发展，满足服务等级目标（SLOs）所需的硬件要求仍然是一个开放的研究问题。为了回答这个问题，我们介绍了一种分析工具GenZ，用于高效地导航不同类型的LLM模型架构（密集型、GQA、Moe、Mamba）、LLM服务优化（切片、推测解码、量化）和AI平台设计参数之间的关系。该工具针对给定的场景估计LLM推理性能指标。我们通过在各种不同的硬件平台上运行不同的LLM模型进行验证，最大几何平均误差为5.82。我们使用GenZ来识别在不同LLM推理应用场景下的计算能力、内存容量、内存带宽、网络延迟和网络带宽需求。我们还研究了当今使用的各种不同架构选择（受到来自多个供应商的LLM服务平台的启发），以帮助指导设计下一代AI硬件加速器和平台的计算机架构师。从GenZ得出的趋势和见解可以指导部署LLM的AI工程师以及设计下一代硬件加速器和平台的计算机架构师。最终，这项工作揭示了在一系列应用中充分发挥大规模语言模型潜力所需的平台设计考虑因素。源代码可在 https://github.com/abhibambhaniya/GenZ-LLM-Analyzer 提供。用户也可以在 https://genz-llm-analyzer.streamlit.app/ 在浏览器中无需任何设置进行尝试。

发布时间: 5/1/2025

查看原文

我们能信任配备了物理体的代理吗？探索针对基于体态LLM的决策系统的情感后门攻击

作者: Ruochen Jiao, Shaoyuan Xie, Justin Yue, Takami Sato, Lixu Wang, Yixuan Wang, Qi Alfred Chen, Qi Zhu

arXiv:2405.20774v3 宣告类型: 替换交叉摘要：大语言模型（LLMs）在具身人工智能的实际决策任务中展现出了显著的潜力，尤其是在利用其固有的常识和推理能力进行微调后，特别是在针对特定应用进行调整时。然而，这一微调过程引入了重大的安全和隐私漏洞，尤其是在安全关键的网络物理系统中。在本文中，我们提出了针对基于LLM的决策系统（BALD）的首次全面后门攻击框架，系统地探索了攻击面和触发机制。具体来说，我们提出了三种不同的攻击机制：词汇注入、场景操纵和知识注入，针对LLM基于决策管道中的各种组件。我们在自主驾驶和家用机器人任务中对代表性的LLM（GPT-3.5、LLaMA2、PaLM2）进行了广泛的实验，展示了我们的后门触发器在各种攻击渠道中的有效性和隐蔽性，包括车辆朝障碍加速和机器人将刀具放在床上的情况。我们的词汇和知识注入攻击在多个模型和数据集上几乎实现了100%的成功率，同时只需要有限的系统访问权限。我们的场景操纵攻击的成功率超过65%，最高可达90%，并且不需要任何运行时系统入侵。我们还评估了这些攻击对防御的鲁棒性，展示了它们的弹性。这项研究揭示了具身LLM系统的重大安全漏洞，并强调了迫切需要保护这些系统以降低潜在风险。

发布时间: 5/1/2025

查看原文

变分离线多智能体技能发现

作者: Jiayu Chen, Tian Lan, Vaneet Aggarwal

arXiv:2405.16386v3 描述类型: replace-cross 摘要：技能是为顺序决策建立的有效的时间抽象，它们在长时周期任务中实现高效的分层学习，并通过可转移性促进多任务学习。尽管进行了广泛的研究，但在多智能体场景中仍存在研究空白，特别是自动提取多智能体任务中的子组协调模式。为了解决这一挑战，我们提出了两种新颖的自动编码器方案：VO-MASD-3D 和 VO-MASD-Hier，以同时捕捉子组和时间级别抽象，并形成多智能体技能。这些方案的一个关键技术组件是能够基于任务中的智能体交互自动检测潜在子组的动态分组函数。此外，我们的方法可以应用于离线多任务数据，并且发现的子组技能可以在相关任务之间进行转移而无需重新训练。在 StarCraft 任务上的实证评估表明，我们的方法显著优于现有的多智能体强化学习（MARL）方法。此外，使用我们方法发现的技能可以有效地降低多智能体强化学习（MARL）场景中带有延迟和稀疏奖励信号的学習难度。代码库可在 https://github.com/LucasCJYSDL/VOMASD 获取。

发布时间: 5/1/2025

查看原文

历史上相关的事件结构化表示及其在时间知识图谱推理中的应用

作者: Jinchuan Zhang, Ming Sun, Chong Mu, Jinhao Zhang, Quanjiang Guo, Ling Tian

arXiv:2405.10621v2 通知类型: 交叉替换摘要: 时间知识图谱 (TKG) 推理关注的是通过时间轴上分布的快照中的历史信息来预测事件。现有的研究主要集中在利用 TKG 历史的两个视角，包括捕捉近期快照的演变或全球历史事实之间的相关性。尽管取得了显著的成就，但这些模型仍未解决以下两个问题：I）跨近期快照的多粒度交互影响的调查不足；II）在整个历史中捕捉与查询相关的关键关联，特别是对未来的事件影响深远。这些不足限制了对历史依赖性和未来趋势的反映能力。为克服这些缺点，我们提出了一种新的 TKG 推理方法，以**His**tortiously **R**elevant **E**vents **S**tructuring (HisRES) 的方式。具体而言，HisRES 包括两个独特的模块，专门用于在 TKG 中结构化历史相关的事件，包括一个多粒度演变编码器，用于捕捉最近快照的结构和时间依赖性，以及一个全局相关性编码器，专注于与查询相关的整个历史事件中的关键相关性。此外，HisRES 结合了一个自我门控机制，以自适应地合并多粒度的近期和历史相关的结构化表示。在四个事件基准上的广泛实验表明，HisRES 的性能处于最先进的水平，并表明了用于 TKG 推理的历史相关性结构化的优越性和有效性。

发布时间: 5/1/2025

查看原文

HeadEvolver：表达性强且属性保留的网格变形文本到头部avatar生成

作者: Duotun Wang, Hengyu Meng, Zeyu Cai, Zhijing Shao, Qianxi Liu, Lin Wang, Mingming Fan, Xiaohang Zhan, Zeyu Wang

arXiv:2403.09326v4 通知类型: replace-cross 摘要：当前的文本到Avatar方法往往依赖于隐式表示（例如，NeRF、SDF和DMTet），这导致了艺术家在图形软件中难以编辑和动画的3D内容。本文提出了一种新颖的框架，从文本指导生成风格化的头部Avatar，该框架利用局部可学习网格变形和二维扩散先验，以实现具有属性保持变换的高质量数字资产。给定一个模板网格，我们的方法使用每个面的雅可比矩阵来表示网格变形，并通过一个可学习的向量场自适应地调节局部变形。该向量场可以在保持顶点旋转的同时实现各向异性缩放，从而更好地表达身份和几何细节。我们采用基于关键点和轮廓的正则化项来平衡多视角生成的Avatar的表达性和合理性，而无需依赖任何特定的形状先验。我们的框架可以生成真实的形状和纹理，这些纹理可以通过文本进一步编辑，同时支持通过模板网格保留的属性进行无缝编辑，例如3DMM参数、混动形状和UV坐标。广泛的实验表明，我们的框架可以生成多样化且富有表现力的头部Avatar，拥有高质量的网格，艺术家可以在图形软件中轻松编辑，有助于下游应用，如高效资产创造和保留属性的动画。

发布时间: 5/1/2025

查看原文