arXiv 论文列表

作者: Baihan Lin

在数字健康与人工智能时代，患者数据隐私管理变得日益复杂，对全球健康公平与患者信任具有重大影响。本文介绍了一种新颖的“隐私梯度”方法来治理健康数据，提供了一个比传统二元隐私模型更细致入微、更具适应性的框架。我们的多维概念考虑了数据敏感性、利益相关者关系、使用目的和时间方面等因素，从而实现上下文相关的隐私保护。通过政策分析、伦理考量以及涵盖青少年健康、整合护理和基因组研究的案例研究，我们展示了这种方法如何解决全球不同医疗环境中的关键隐私挑战。隐私梯度模型有潜力增强患者参与度，改善护理协调，并加速医学研究，同时保障个人隐私权。我们提供了实施该方法的政策建议，考虑到其对医疗系统、研究基础设施和全球健康倡议的影响。这项工作旨在为政策制定者、医疗保健领导者和数字健康创新者提供信息，为数字时代更公平、更值得信赖、更有效的全球健康数据生态系统做出贡献。

发布时间: 10/2/2024

查看原文

GEMS：基于迭代提示引导的生成式专家指标系统

作者: Ti-Chung Cheng, Carmen Badea, Christian Bird, Thomas Zimmermann, Robert DeLine, Nicole Forsgren, Denae Ford

跨领域，指标和度量对于识别挑战、指导决策和解决冲突至关重要。尽管信息时代数据丰富，但对于单个专家来说，跨学科数据工作可能具有挑战性，而对于非专家来说，创建有效的度量或将理论转化为适当选择的特定于上下文的度量也可能不直观。本技术报告通过考察大型软件公司内部的软件社区来解决这一挑战，在这些社区中，不同的度量被用作代理来定位组织内的对应者，以传递隐性知识。我们提出了一种受神经活动启发的提示工程框架，证明生成模型可以提取和总结理论并执行基本推理，从而将概念转化为上下文感知的度量，以支持软件社区提供软件库数据。虽然这项研究集中在软件社区，但我们相信该框架的适用范围扩展到各个领域，展示了专家理论启发的度量，这些度量有助于对复杂挑战进行分类。

发布时间: 10/2/2024

查看原文

音乐生成模型是否编码了音乐理论？

作者: Megan Wei, Michael Freeman, Chris Donahue, Chen Sun

音乐基础模型展现出令人印象深刻的音乐生成能力。当人们创作音乐时，他们可能会将自己对音乐的理解融入作品中，例如使用音符和音程来创作旋律，使用和弦来构建进行，以及使用速度来营造节奏感。这些音乐生成模型在多大程度上做到了这一点？更具体地说，这些模型的“内部运作”中是否可以观察到基本的西方音乐理论概念？最近的研究表明，利用音乐生成模型的潜在音频表示可以用于音乐信息检索任务（例如，流派分类、情绪识别），这表明这些模型中编码了高级的音乐特征。然而，探究单个音乐理论概念（例如，速度、音高类别、和弦性质）仍未得到充分探索。因此，我们引入了 SynTheory，这是一个合成 MIDI 和音频音乐理论数据集，包含速度、拍号、音符、音程、音阶、和弦和和弦进行等概念。然后，我们提出一个框架来探测这些音乐理论概念在音乐基础模型（Jukebox 和 MusicGen）中的存在，并评估这些模型在内部表示中编码这些概念的强度。我们的研究结果表明，音乐理论概念可以在基础模型中识别出来，并且它们的检测程度会因模型大小和层级而异。

发布时间: 10/2/2024

查看原文

MAP：利用掩码自回归预训练释放混合曼巴-Transformer视觉主干的潜力

作者: Yunze Liu, Li Yi

Mamba 在长上下文建模和自回归任务中取得了显著的优势，但其在大参数模型中的可扩展性仍然是视觉应用中的主要限制。预训练是一种广泛应用于增强主干模型性能的策略。尽管 Transformer 预训练中掩码自动编码器 (MAE) 的成功已被广泛认可，但它并没有显著提高 Mamba 的视觉学习性能。我们发现，使用正确的自回归预训练可以显著提升 Mamba 架构的性能。基于此分析，我们提出了一种掩码自回归预训练 (MAP) 方法来预训练混合的 Mamba-Transformer 视觉主干网络。该策略结合了 MAE 和自回归预训练的优势，在统一的范式中提高了 Mamba 和 Transformer 模块的性能。此外，在 Mamba 和 Transformer 模块的集成方面，我们通过实证发现，在 Mamba 层中以规律的间隔插入 Transformer 层可以显著提高下游任务的性能。实验结果表明，使用 MAP 预训练的纯 Mamba 架构和混合的 Mamba-Transformer 视觉主干网络都显著优于其他预训练策略，并取得了最先进的性能。我们在 2D 和 3D 数据集上验证了该方法的有效性，并提供了详细的消融研究来支持每个组件的设计选择。

发布时间: 10/2/2024

查看原文

WiGNet：窗口化视觉图神经网络

作者: Gabriele Spadaro, Marco Grangetto, Attilio Fiandrotti, Enzo Tartaglione, Jhony H. Giraldo

近年来，图神经网络 (GNN) 在各种现实世界的挑战中展现出了强大的适应性，例如视觉 GNN (ViG) 在多个计算机视觉任务中取得了最先进的性能。然而，它们的实际适用性受到构建图的计算复杂度的阻碍，该复杂度与图像大小呈二次方增长。在本文中，我们介绍了一种新颖的窗口化视觉图神经网络 (WiGNet) 模型，用于高效的图像处理。WiGNet 探索了与先前工作不同的策略，将图像划分为窗口，并在每个窗口内构建一个图。因此，我们的模型使用图卷积而不是典型的二维卷积或自注意力机制。WiGNet 有效地管理了大型图像尺寸的计算和内存复杂度。我们在 ImageNet-1k 基准数据集上评估了我们的方法，并使用 CelebA-HQ 数据集作为具有更高分辨率图像的下游任务测试了 WiGNet 的适应性。在这两种情况下，我们的方法都取得了与之前的视觉 GNN 相媲美的结果，同时将内存和计算复杂度控制在一定范围内。WiGNet 为在现实世界应用中部署视觉 GNN 提供了一种有希望的解决方案。我们在 https://github.com/EIDOSLAB/WiGNet 上公开了代码。

发布时间: 10/2/2024

查看原文

基于不确定性驱动的预见性预测的自适应运动生成

作者: Hyogo Hiruma, Hiroshi Ito, Tetusya Ogata

环境的不确定性一直是执行现实世界机器人任务时难以处理的特征。这是因为不确定性会产生无法通过手动脚本覆盖的意外观测。基于学习的机器人控制方法是一种很有前景的方法，可以针对未知情况生成灵活的运动，但由于其确定性，在不确定性下仍然容易受到影响。为了在这样的条件下自适应地执行目标任务，机器人控制模型必须能够准确地理解可能的不确定性，并探索性地推导出最小化这种不确定性的最佳动作。本文扩展了一种现有的基于预测学习的机器人控制方法，该方法使用动态内部模拟进行预见预测。预见模块通过对多个可能的未来进行采样来细化模型的隐藏状态，并用导致未来不确定性较低的那个状态替换。该模型的自适应性在开门任务中进行了评估。门可以通过推、拉或滑动打开，但机器人无法直观地分辨哪种方式，需要在运行中进行适应。结果表明，所提出的模型通过与门的交互自适应地改变其运动，而传统方法未能稳定地改变。模型在 RNN 隐藏状态的李雅普诺夫指数上进行了分析，这些指数反映了任务执行过程中每个时间步长的可能发散。结果表明，预见模块使模型倾向于考虑未来的后果，这导致在机器人控制器的策略中嵌入不确定性，而不是在结果观测中。这对实现自适应行为是有益的，这些行为表明在探索过程中推导出不同的运动。

发布时间: 10/2/2024

查看原文

结合亲和力预测：从传统方法到机器学习方法

作者: Xuefeng Liu, Songhao Jiang, Xiaotian Duan, Archit Vasan, Chong Liu, Chih-chan Tien, Heng Ma, Thomas Brettin, Fangfang Xia, Ian T. Foster, Rick L. Stevens

蛋白质-配体结合是指一个小分子（药物或抑制剂）与靶蛋白结合的过程。结合亲和力，指的是这种相互作用的强度，是生物信息学中许多重要问题的核心，例如药物设计。由于其重要性，过去几十年来，人们投入了大量工作来预测结合亲和力。本文回顾了所有重要的近期工作，重点关注方法、特征和基准数据集。我们观察到，使用传统机器学习和深度学习模型预测结合亲和力的趋势正在上升，同时蛋白质和小分子药物的可用数据量也在不断增加。虽然预测结果不断改进，但我们也发现该领域中仍存在一些未探索的开放性问题和潜在方向。本文可以作为机器学习研究人员从事结合亲和力研究的绝佳起点，也可以作为对机器学习、药物发现和生物信息学感兴趣的任何人的良好参考。

发布时间: 10/2/2024

查看原文

对比抽象强化学习

作者: Vihang Patil, Markus Hofmarcher, Elisabeth Rumetshofer, Sepp Hochreiter

当处理涉及大量状态的长期轨迹时，使用强化学习训练智能体十分困难。为了有效地解决这些学习问题，可以通过对状态进行聚类来构建抽象表示，从而减少状态数量。原则上，深度强化学习可以找到抽象状态，但端到端学习不稳定。我们提出了对比抽象学习来寻找抽象状态，假设轨迹中的连续状态属于同一个抽象状态。这些抽象状态可以是基本位置、达成的子目标、库存或健康状况。对比抽象学习首先通过对比学习构建状态表示的聚类，然后应用现代霍普菲尔德网络来确定抽象状态。对比抽象学习的第一阶段是自监督学习，对比学习迫使具有顺序邻近性的状态具有相似的表示。第二阶段使用现代霍普菲尔德网络将相似的状态表示映射到同一个不动点，即抽象状态。抽象级别可以通过确定现代霍普菲尔德网络的不动点数量来调整。此外，对比抽象学习不需要奖励，并有助于在广泛的下游任务中进行有效的强化学习。我们的实验证明了对比抽象学习在强化学习中的有效性。

发布时间: 10/2/2024

查看原文

挖掘你的秘密：用于文本到图像扩散模型持续个性化的扩散分类器分数

作者: Saurav Jha, Shiqi Yang, Masato Ishii, Mengjie Zhao, Christian Simon, Jehanzeb Mirza, Dong Gong, Lina Yao, Shusuke Takahashi, Yuki Mitsufuji

个性化文本到图像扩散模型因其能够从用户定义的文本描述和少量图像中高效地学习新概念而广受欢迎。然而，在现实世界中，用户可能希望一次个性化模型多个概念，但由于存储/隐私问题，无法访问先前概念的数据。当面临这种持续学习 (CL) 设置时，大多数个性化方法无法在学习新概念和保留先前概念之间取得平衡，而持续个性化 (CP) 旨在解决这一挑战。受依赖于特定类别信息的正则化的成功 CL 方法的启发，我们将类别条件密度估计（也称为扩散分类器 (DC) 分数）用于文本到图像扩散模型的持续个性化。具体而言，我们建议使用 DC 分数来正则化文本到图像扩散模型的参数空间和函数空间，以实现持续个性化。使用多种不同的评估设置、数据集和指标，我们证明了我们提出的基于正则化的 CP 方法优于最先进的 C-LoRA 和其他基线。最后，通过在无重放 CL 设置和低秩适配器上运行，我们的方法分别在存储和参数方面相对于最先进技术没有额外开销。

发布时间: 10/2/2024

查看原文

基于新型稀疏性概念的群分布鲁棒优化超越极小极大率

作者: Quan Nguyen, Nishant A. Mehta, Crist\'obal Guzm\'an

大型语言模型 (LLMs) 已经取代了众多自然语言处理任务中的传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLMs 的方法...

发布时间: 10/2/2024

查看原文