arXiv 论文列表

作者: Joseph Paul Cohen, Louis Blankemeier, Akshay Chaudhari

由虚假关联驱动的模型通常会导致较差的泛化性能。我们提出了反事实 (CF) 对齐方法来检测和量化黑盒分类器的虚假关联。我们的方法基于针对一个分类器生成的，输入到其他分类器中的反事实图像，以观察它们是否也会引起这些分类器输出的变化。这些响应之间的关系可以被量化，并用于识别存在虚假关联的特定实例。通过观察人脸属性-人脸属性和水鸟分类器中直观的趋势，以及通过制造虚假关联并视觉和定量地检测它们的存在，验证了这一点。此外，利用 CF 对齐方法，我们证明了可以通过检测虚假关联的减少来评估鲁棒优化方法（GroupDRO、JTT 和 FLAC）。

发布时间: 10/2/2024

查看原文

利用扩散反事实和多样性集成来缓解捷径学习

作者: Luca Scimeca, Alexander Rubinstein, Damien Teney, Seong Joon Oh, Armand Mihai Nicolicioiu, Yoshua Bengio

数据中的虚假相关性，即多个线索都能够预测目标标签，通常会导致一种被称为捷径学习的现象，模型依赖于错误的、易于学习的线索，而忽略了可靠的线索。在这项工作中，我们提出了 DiffDiv，这是一个利用扩散概率模型 (DPM) 的集成多样化框架，旨在缓解这种偏差。我们表明，在特定的训练间隔内，DPM 能够生成具有新颖特征组合的图像，即使是在训练样本显示相关输入特征的情况下。我们利用这一关键特性来生成合成反事实，通过集成分歧来提高模型多样性。我们表明，DPM 引导的多样化足以消除对捷径线索的依赖，而无需额外的监督信号。我们进一步从经验上量化了其在几个多样化目标上的有效性，最后展示了与依赖于辅助数据收集的先前工作相当的改进泛化和多样化。

发布时间: 10/2/2024

查看原文

基于梯形自下而上卷积双向变分自编码器的阿拉伯语点式有效期图像翻译

作者: Ahmed Zidane, Ghada Soliman

本文提出了一种基于梯形自下而上卷积双向变分自编码器 (LCBVAE) 架构的编码器和解码器方法，该方法通过将阿拉伯点状有效期日期重建为填充的有效期日期来训练图像转换。我们采用了一种定制的、适应的卷积循环神经网络 (CRNN) 模型版本来满足我们的特定需求，并提高其在我们上下文中的性能，然后用 2019 年至 2027 年的填充图像训练定制 CRNN 模型，以提取有效期日期并评估 LCBVAE 模型对有效期日期识别的性能。然后可以将 (LCBVAE+CRNN) 管道集成到自动分拣系统中，以便在制造阶段提取有效期日期并相应地对产品进行分拣。此外，它可以克服手动输入有效期日期，这在商家处可能很耗时且效率低下。由于缺乏阿拉伯点状有效期日期图像，我们创建了一个阿拉伯点阵 True Type 字体 (TTF) 来生成合成图像。我们使用 60,000 张图像的非现实合成日期训练了模型，并在 2019 年至 2027 年的 3000 张现实合成日期图像上进行了测试，表示为 yyyy/mm/dd。在我们的研究中，我们证明了潜在瓶颈层在提高泛化方面的意义，当大小在图像转换等下游迁移学习任务中增加到 1024 时。所提出的方法在图像转换中使用 LCBVAE 架构实现了 97% 的准确率，该架构可以推广到任何下游学习任务，例如图像转换和重建。

发布时间: 10/2/2024

查看原文

局部学习系数：一种感知奇点的复杂度度量

作者: Edmund Lau, Zach Furman, George Wang, Daniel Murfet, Susan Wei

局部学习系数 (LLC) 作为一种用于深度神经网络 (DNN) 的全新复杂度度量被提出。认识到传统复杂度度量的局限性，LLC 利用奇异学习理论 (SLT)，该理论长期以来一直认识到奇异性在损失景观几何中的重要性。本文对 LLC 的理论基础进行了广泛的探讨，提供了清晰的定义和对其应用的直观见解。此外，我们提出了一种新的可扩展的 LLC 估计器，该估计器随后有效地应用于各种架构，包括深度线性网络（高达 1 亿个参数）、ResNet 图像模型和 Transformer 语言模型。经验证据表明，LLC 为理解训练启发式方法如何影响 DNN 的有效复杂度提供了宝贵的见解。最终，LLC 成为调和深度学习复杂性和简约原则之间明显矛盾的关键工具。

发布时间: 10/2/2024

查看原文

结构检测聚类：基于分层二次定向差分、归一化密度和自适应的聚类方法

作者: Hao Shu

基于密度的聚类算法因其能够识别任意形状的聚类（只要它们被低密度区域隔开）而成为最受欢迎的聚类算法之一。然而，一个没有被低密度区域隔开的、高密度的区域也可能包含属于多个聚类的不同结构。据我们所知，所有现有的基于密度的聚类算法都无法检测到这种结构。在本文中，我们提供了一种新颖的基于密度的聚类方案，它不仅可以检测由低密度区域隔开的聚类，还可以检测没有被低密度区域隔开的高密度区域中的结构。该算法采用二级定向微分、层次结构、归一化密度以及自适应系数，因此被称为具有归一化密度和自适应的层次二级定向微分结构检测聚类，简称 SDC-HSDD-NDSA。该算法在多个数据集上运行，以验证其有效性、鲁棒性和粒度独立性，结果表明它具有以前算法所不具备的能力。Python 代码位于 https://github.com/Hao-B-Shu/SDC-HSDD-NDSA。

发布时间: 10/2/2024

查看原文

递归深度学习框架预测未来十年世界经济展望

作者: Tianyi Wang, Rodney Beard, John Hawkins, Rohitash Chandra

国内生产总值 (GDP) 是宏观经济学中最广泛使用的指标，也是衡量一个国家经济产出的主要工具。由于世界经济的多样性和复杂性，人们使用过各种模型，但在做出十年期 GDP 预测方面存在挑战，因为会出现一些意想不到的变化，例如突发性世界事件，包括流行病和战争。深度学习模型非常适合对时间序列进行建模和时间序列预测。在本文中，我们开发了一个深度学习框架来预测未来十年世界经济的 GDP 增长率。我们使用宾夕法尼亚世界表作为数据来源，该数据来源包括 13 个在 COVID-19 大流行之前处于领先地位的国家，例如澳大利亚、中国、印度和美国。我们提出了一种递归深度学习框架来预测未来十年的 GDP 增长率。我们测试了著名的深度学习模型，并将它们的结果与传统计量经济学模型进行了比较，以比较选定的发达国家和发展中国家。我们对十年的预测表明，大多数发达国家将在五年内（2020-2024 年）经历经济增长放缓、停滞甚至衰退。此外，我们的模型预测显示，只有中国、法国和印度会经历稳定的 GDP 增长。

发布时间: 10/2/2024

查看原文

LAViTeR：通过图像和标题生成学习对齐的视觉和文本表示

作者: Mohammad Abuzar Hashemi, Zhanghexuan Li, Mihir Chauhan, Yan Shen, Abhishek Satbhai, Mir Basheer Ali, Mingchen Gao, Sargur Srihari

从大规模图像-文本对中预训练视觉和文本表示已成为许多下游视觉-语言任务的标准方法。基于 Transformer 的模型通过一系列自监督学习任务学习模态间和模态内的注意力。本文提出了一种用于视觉和文本表示学习的新架构 LAViTeR。主要模块，视觉文本对齐（VTA）将由两个辅助任务辅助，即基于 GAN 的图像合成和图像字幕。我们还提出了一种新的评估指标来衡量学习到的视觉和文本嵌入之间的相似性。在两个公共数据集 CUB 和 MS-COCO 上的实验结果表明，在联合特征嵌入空间中，视觉和文本表示对齐效果更好。

发布时间: 10/2/2024

查看原文

DRIM：从不完整的多模态医疗数据中学习解耦表示

作者: Lucas Robinet, Ahmad Berjaoui, Ziad Kheil, Elizabeth Cohen-Jonathan Moyal

现实世界中的医疗数据通常是多模态且不完整的，这推动了对能够有效整合这些数据的先进深度学习模型的需求日益增长。使用多种模态，包括组织病理学切片、MRI 和遗传数据，为改善预后预测和揭示新的治疗途径提供了前所未有的机会。对比学习广泛用于从多模态任务中的配对数据中推导出表示，假设不同的视图包含相同的任务相关信息，并且只利用共享信息。当处理医疗数据时，这种假设变得限制性，因为每种模态也包含与下游任务相关的特定知识。我们介绍了 DRIM，这是一种新的多模态方法，用于捕获这些共享和独特的表示，尽管数据稀疏。更具体地说，给定一组模态，我们的目标是为每个模态编码一个表示，该表示可以分为两个部分：一个封装跨模态的患者相关信息，另一个封装模态特异性细节。这是通过增加不同患者模态之间的共享信息，同时最小化每个模态内共享和唯一组件之间的重叠来实现的。我们的方法在胶质瘤患者生存预测任务中优于最先进的算法，同时对缺失模态具有鲁棒性。为了促进可重复性，代码已在 https://github.com/Lucas-rbnt/DRIM 上公开提供。

发布时间: 10/2/2024

查看原文

基于度量混合规划方法的简单 SIR 模型疫情规划问题求解

作者: Ari Gestetner, Buser Say

疫情是指疾病在广阔地区传播，会对社会造成健康、经济和社会方面的巨大损失。因此，研究有效的疫情防控策略可以对社会产生重大积极影响。疫情可以用隔室模型（如易感-感染-移除（SIR）模型）进行数学描述。本文将 SIR 模型的解方程扩展到带有封锁措施的状态转移模型。我们基于此状态转移模型形式化了一个度量混合规划问题，并使用度量混合规划器对其进行求解。通过添加有效不等式，我们提高了度量混合规划器的运行效率，并在理论和实验上证明了我们的方法在各种具有挑战性的环境下的成功。

发布时间: 10/2/2024

查看原文

CPL：关键计划步骤学习提升大型语言模型在推理任务中的泛化能力

作者: Tianlong Wang, Junzhe Chen, Xueting Han, Jing Bai

大型语言模型 (LLM) 通过使用自我博弈生成的数据进行强化学习 (RL) 来进行训练，这已成为一种新的学习范式。然而，将 RL 扩展到开发通用推理器仍然是一个研究挑战，因为现有方法侧重于特定任务的推理，而没有充分解决跨更广泛任务的泛化问题。此外，与动作空间有限的传统 RL 不同，LLM 在无限空间中运行，因此必须搜索有价值和多样化的策略以有效地解决问题。为了解决这个问题，我们建议在高级抽象计划的动作空间中搜索，以增强模型的泛化能力，并引入关键计划步骤学习 (CPL)，包括：1) 在计划中搜索，使用蒙特卡罗树搜索 (MCTS) 探索多步推理任务中的各种计划步骤；2) 通过步骤级优势偏好优化 (Step-APO) 学习关键计划步骤，该方法将通过 MCTS 获得的步骤偏好的优势估计集成到直接偏好优化 (DPO) 中。这种组合有助于模型有效地学习关键计划步骤，从而增强推理能力和泛化能力。实验结果表明，我们的方法仅在 GSM8K 和 MATH 上进行训练，不仅显着提高了 GSM8K (+10.5%) 和 MATH (+6.5%) 的性能，而且还增强了域外推理基准，例如 HumanEval (+12.2%)、GPQA (+8.6%)、ARC-C (+4.0%)、MMLU-STEM (+2.2%) 和 BBH (+1.8%)。

发布时间: 10/2/2024

查看原文