arXiv 论文列表

作者: Lijie Hu, Chenyang Ren, Zhengyu Hu, Hongbin Lin, Cheng-Long Wang, Hui Xiong, Jingfeng Zhang, Di Wang

arXiv:2405.15476v3 修订类型：交叉替换摘要：概念瓶颈模型（CBMs）因其能够通过人类可理解的概念层来阐明预测过程而引起了广泛关注。然而，大多数先前的研究集中在数据（包括概念）干净的情况下。在许多应用场景中，我们往往需要出于隐私考虑、数据标签错误、虚假概念和概念标注错误等原因，从训练好的CBMs中移除或插入一些训练数据或新概念。因此，在大规模应用中，不从头重新训练就有效地编辑CBMs仍然是一项挑战。为应对这些挑战，我们提出了可编辑概念瓶颈模型（ECBMs）。具体而言，ECBMs支持三种不同层次的数据移除：概念标签级、概念级和数据级。ECBMs得益于从影响函数中推导出的严格数学闭合形式近似，从而无需重新训练。实验结果证明了我们提出的ECBMs的高效性和适用性，证实了它们在CBMs中的实际价值。

发布时间: 2/4/2025

查看原文

如何在扩展模型和数据集规模时设置AdamW的权重衰减参数

作者: Xi Wang, Laurence Aitchison

arXiv:2405.13698v2 通知类型: 替换-交叉摘要：随着我们致力于构建更大的模型，AdamW 最优权重衰减超参数的模型和数据集大小缩放至关重要，但这一问题尚未得到充分理解。我们展示了 AdamW 学习的权重可以理解为近似更新的指数移动平均（EMA）。这为我们设置了 AdamW 的权重衰减提供了关键见解，并帮助我们理解权重衰减应如何随模型和数据集大小进行缩放。特别是，指数移动平均的关键超参数是 EMA 时间尺度。直观上，EMA 时间尺度可以理解为 EMA 平均的最近迭代次数。我们发现，以epoch为单位测得的最佳时间尺度随着模型和数据集大小的变化大致保持不变。而且，给定学习率，EMA 时间尺度与权重衰减超参数之间存在一对一映射。因此，如果最佳 EMA 时间尺度是常数，那么随着数据集大小的增加，最优权重衰减应降低；随着模型大小的增加，最优权重衰减应增加（如果我们遵循 muP 对学习率缩放的建议）。我们通过在CIFAR-10 和 ImageNet 上训练的 ResNet-18 和视觉Transformer，以及在OpenWebText 上进行预训练的 NanoGPT 验证了这些缩放规则。最后，我们发现，除非适当地缩放权重衰减，否则 muP 的学习率缩放会随着训练的进行失效。

发布时间: 2/4/2025

查看原文

审视我们忽略的：抑制基于上下文的离线元强化学习中的任务表示转移

作者: Hai Zhang, Boyuan Zheng, Tianying Ji, Jinhang Liu, Anqi Guo, Junqiao Zhao, Lanqing Li

arXiv:2405.12001v4 宣告类型: replace-cross 摘要: 离线元强化学习(OMRL)已经作为一种利用预先收集的数据和元学习技术的方法，成为了一种有前景的方法，它通过这种手段可以实现交互避免和强大的泛化性能。之前的基于上下文的方法主要依赖于这样一种直观：交替优化上下文编码器和策略可以带来性能提升，前提是上下文编码器遵循最大化任务变量 $M$ 和其潜在表示 $Z$ 之间的互信息 ($I(Z;M)$) 的原则，而策略则采用标准的离线强化学习(RL)算法，并基于学习到的任务表示进行条件化。尽管取得了有希望的结果，但对于这种直观所带来的性能提升的理论依据仍然缺乏深入探索。受基于模型的RL领域中回报差异方案的启发，我们发现之前的优化框架可以与最大化预期回报的一般RL目标联系起来，从而解释了性能提升的原因。进一步仔细研究此优化框架后，我们观察到，确保单调性能提升的条件没有考虑到任务表示的变化。当考虑到这些变化时，之前建立的条件可能已不再足够以确保单调性，从而损害了优化过程。我们把这个问题命名为任务表示偏移，并从理论上证明了适当更新上下文编码器可以保证单调性能提升。我们的工作为OMRL开辟了一个新的方向，促进了对于任务表示和性能提升之间关系的更好理解。

发布时间: 2/4/2025

查看原文

测度空间上的对数折叠结构

作者: Inkee Jung, Siu-Cheong Lau

arXiv:2405.05492v3 更新类型: replace-cross 摘要: 在本文中，我们发展了一种局部到全局和测度论的方法来理解数据集。基本思想是将具有限制域的网络模型视为数据集的局部坐标图。我们为这些结构发展了数学基础，并在实验中展示了其如何用于发现模糊域以及提高数据分类问题的准确性。

发布时间: 2/4/2025

查看原文

SIMPLOT: 通过提炼 essentials 提高图表问答能力

作者: Wonjoong Kim, Sangwu Park, Yeonjun In, Seokwon Han, Chanyoung Park

arXiv:2405.00021v3 通知类型: replace-cross 摘要：由于视觉语言模型的发展，最近对复杂图表进行逻辑推理的解释成为了挑战。此前的一项前沿（SOTA）模型提出了一种端到端的方法，利用视觉语言模型将图表转换为表格格式，并通过大规模语言模型（LLM）进行推理。然而，与自然图像不同，图表包含了一些对于图表推理至关重要的信息和一些无关的信息，我们发现这一特性会降低图表到表格提取的性能。在本文中，我们提出了SIMPLOT方法，该方法旨在仅提取用于图表推理的必要元素。该提出的方法包含两个步骤：1) 训练以模仿一个只包含复杂图表中关键信息的简单图表，用于表格提取，紧接着 2) 基于表格进行推理。我们的模型能够在没有额外注释或数据集的情况下实现精确的图表推理，并通过各种实验展示了其有效性。此外，我们提出了一种新颖的提示，模仿了人类如何解释图表，以实现更准确的推理。我们的源代码可在https://github.com/sangwu99/Simplot获取。

发布时间: 2/4/2025

查看原文

学习更公平的表示with FairVIC

作者: Charmaine Barker, Daniel Bethell, Dimitar Kazakov

arXiv:2404.18134v2 宣告类型: replace-cross 摘要：在自动化决策系统中，尤其是在深度学习模型中缓解偏见是一个关键挑战，这主要是由于公平性的复杂定义、数据集特定的偏见以及公平性和准确性之间的固有权衡。为了解决这些问题，我们引入了FairVIC，这是一种创新的方法，通过在训练过程中将方差、不变性和协方差项整合到损失函数中来增强神经网络的公平性。与依赖预定义公平性的方法不同，FairVIC 抽象了公平性的概念，以减轻对受保护特征的依赖。我们对FairVIC进行了与可比的偏见缓解技术在基准数据集上的评估，考虑了群体公平性和个体公平性，并进行了准确性和公平性权衡的消融研究。FairVIC在所有测试指标上的公平性表现出显著的改进（约70%），同时并未牺牲准确性，从而提供了一种稳健且可推广的解决方案，以在多种任务和数据集上实现公平的深度学习。

发布时间: 2/4/2025

查看原文

通过机器人操作和物体测量数据库学习物理对象属性的交互式方法

作者: Andrej Kruzliak, Jiri Hartvich, Shubhan P. Patni, Lukas Rustler, Jan Kristof Behrens, Fares J. Abu-Dakka, Krystian Mikolajczyk, Ville Kyrki, Matej Hoffmann

arXiv:2404.07344v2 宣告类型: replace-cross 摘要: 本文提出了一种通过机器人操作和物体测量数据库自动提取物体属性（如材质组成、质量、体积和刚度）的框架。该框架涉及探索性动作选择，以最大化对桌面上物体的学习。贝叶斯网络模型了物体属性之间的条件依赖关系，包含了测量动作相关的先验概率分布和不确定性。算法基于预期信息增益选择最优的探索性动作，并通过贝叶斯推断更新物体属性。实验评估表明，与基线相比，行动选择有效，并且在没有更多可学内容时可以正确终止实验。当面对具有材质属性与其外观矛盾的“陷阱”物体时，算法表现出了智能行为。该机器人管道与日志模块和在线物体数据库集成，后者包含了使用不同夹具对63个物体进行的超过24,000次测量。所有代码和数据均已公开，便于通过探索性操作自动数字化物体及其物理属性。

发布时间: 2/4/2025

查看原文

私人 Wasserstein 距离

作者: Wenqian Li, Yan Pang

arXiv:2404.06787v2 公告类型: replace-cross 摘要: Wasserstein距离是衡量数据与分布间差异的关键度量。然而，在直接共享原始数据受到限制的隐私敏感环境中应用Wasserstein距离带来了显著挑战。现有的方法，如差分隐私和联邦优化，已被用于在这些约束下估算Wasserstein距离。然而，这些方法在需要同时保证准确性和安全性时往往会力不从心。在本研究中，我们探索了Wasserstein空间中的固有三角性质，提出了名为TriangleWad的新颖解决方案。该方法使得在不同实体之间存储的多个数据集之间的Wasserstein距离的快速计算成为可能，同时确保原始数据完全受到保护。TriangleWad不仅增强了对潜在攻击的抵抗力，还保持了高估计精度。通过在涉及图像和文本数据的各种任务中进行广泛实验，我们展示了其优越性能及其在实际应用中的巨大潜力。

发布时间: 2/4/2025

查看原文

BirdSet: 一种大规模音频分类数据集在鸟类生物声学中的应用

作者: Lukas Rauch, Raphael Schwinger, Moritz Wirth, Ren\'e Heinrich, Denis Huseljic, Marek Herde, Jonas Lange, Stefan Kahl, Bernhard Sick, Sven Tomforde, Christoph Scholz

arXiv:2403.10380v5 公告类型: replace-cross 摘要：深度学习(DL)在音频分类方面取得了巨大进展，但该领域受限于大型基准数据集的稀缺性，这些数据集在其他领域中推动了进展。虽然AudioSet是作为通用领域数据集迈出的重要一步，但由于其受限的可访问性和有限的评估使用场景，它无法作为唯一的资源发挥作用。因此，我们介绍了\texttt{BirdSet}，这是一个专注于鸟类生物声学的大型基准数据集，用于音频分类。\texttt{BirdSet}在训练方面比AudioSet多出了6,800小时的录音（$\uparrow\!17\%$），来自近10,000个类别（$\uparrow\!18\times$），而在八个强标记的评估数据集中则超过了400小时（$\uparrow\!7\times$）。它可以作为一种多功能资源，适用于多标签分类、协变量转移或自监督学习等使用场景。我们对六种众所周知的DL模型在三种不同训练场景下的多标签分类进行了基准测试，并概述了音频分类中的进一步评估使用案例。我们将在Hugging Face上托管我们的数据集，以便于访问，并提供一个全面的代码库以重现我们的结果。

发布时间: 2/4/2025

查看原文

超越像素：结合层级特征和分割基础模型增强LIME

作者: Patrick Knab, Sascha Marton, Christian Bartelt

arXiv:2403.07733v4 Announce Type: replace-cross 摘要：LIME（局部可解释的模型无关解释）是一种流行的XAI框架，用于解析视觉机器学习模型的决策过程。该技术利用图像分割方法识别固定区域，以计算特征重要性分数作为解释。因此，不良的分割会削弱解释，并降低分割的重要性，最终影响整体解释的清晰度。为了解决这些挑战，我们介绍了DSEG-LIME（数据驱动的分割LIME）框架，包括：i）通过基础模型集成进行的人工识别特征的数据驱动分割，以及ii）在层级分割过程中通过组成方式引导用户的细分粒度。我们的研究结果表明，DSEG在预训练的ImageNet模型上的XAI指标上表现更优，并且提高了解释与人工识别概念的一致性。代码可在以下地址获得：https://github.com/patrick-knab/DSEG-LIME

发布时间: 2/4/2025

查看原文