arXiv 论文列表

作者: Gaurav Patel, Christopher Sandino, Behrooz Mahasseni, Ellen L Zippi, Erdrin Azemi, Ali Moin, Juri Minxha

本文提出了一种针对时间序列数据源无关域适应 (SFDA) 的高效框架，重点关注参数效率和数据样本利用率的提升。我们的方法引入了一种改进的源模型准备和目标端适应范式，旨在提高目标适应过程中的训练效率。具体而言，我们以 Tucker 风格的分解方式重新参数化源模型的权重，在源模型准备阶段将模型分解成紧凑形式。在目标端适应过程中，仅对这些分解因子的子集进行微调，从而显著提高训练效率。我们使用 PAC 贝叶斯分析证明，这种选择性微调策略通过限制模型的学习能力，隐式地正则化了适应过程。此外，这种重新参数化降低了模型的整体大小并提高了推理效率，使其特别适合资源受限的设备。此外，我们证明了我们的框架与各种 SFDA 方法兼容，并在计算效率方面取得了显著的提升，将微调参数的数量和推理开销（以 MACs 衡量）降低了 90% 以上，同时保持了模型性能。

发布时间: 10/4/2024

查看原文

生成式 AI 对协作式开源软件开发的影响：来自 GitHub Copilot 的证据

作者: Fangchen Song, Ashish Agarwal, Wen Wen

生成式人工智能（AI）为自动化内容制作打开了大门，包括软件开发中的编码，这将显著影响软件开发人员的参与度和绩效。为了探究这种影响，我们研究了 GitHub Copilot，一个生成式 AI 配对程序员，在开源社区中的软件开发中的作用，该社区中多个开发人员自愿合作进行软件项目。使用 GitHub 的开源仓库数据集和广义合成控制方法，我们发现 Copilot 显著提高了项目级的生产力，提高了 6.5%。更深入地研究，我们剖析了推动这一改进的关键机制。我们的发现表明个人生产力提高了 5.5%，参与度提高了 5.4%。然而，这也伴随着集成时间增加了 41.6%，这可能是由于协调成本更高。有趣的是，我们还观察到开发人员之间的差异影响。我们发现核心开发人员从使用 Copilot 中获得了更大的项目级生产力收益，在个人生产力和参与度方面受益更多，而边缘开发人员则不然，这可能是由于他们对软件项目的熟悉程度更深。我们还发现，项目级生产力的提高并没有改变代码质量。我们得出结论，AI 配对程序员为开发人员带来了好处，可以自动化和增强他们的代码，但人类开发人员对软件项目的了解可以增强这些好处。总之，我们的研究强调了 AI 配对程序员在影响开源社区项目级生产力方面的作用，并暗示了对开源软件项目结构的潜在影响。

发布时间: 10/4/2024

查看原文

RLEF：基于强化学习的代码大型语言模型执行反馈接地方法

作者: Jonas Gehring, Kunhao Zheng, Jade Copet, Vegard Mella, Taco Cohen, Gabriel Synnaeve

作为代理部署的大型语言模型 (LLMs) 在多个步骤中解决用户指定的任务，同时将所需的人工参与降至最低。至关重要的是，此类 LLM 需要将其生成内容与获得的任何反馈进行关联，以可靠地实现预期结果。我们提出了一种端到端强化学习方法，用于训练模型在代码合成领域利用执行反馈，在该领域中，与独立采样相比，最先进的 LLM 难以迭代地改进代码。我们在竞赛编程任务上进行基准测试，在这些任务中，我们使用小型 (80 亿参数) 和大型 (700 亿) 模型都取得了新的最先进成果，同时将所需的样本数量减少了一个数量级。我们对推理时间行为的分析表明，我们的方法产生的 LLM 可以有效地利用多个步骤的自动反馈。

发布时间: 10/4/2024

查看原文

多组学和量子机器学习集成用于肺亚型分类

作者: Mandeep Kaur Saggi, Amandeep Singh Bhatia, Mensah Isaiah, Humaira Gowher, Sabre Kais

量子机器学习（QML）是一个炙手可热的领域，它为解决、加速或改进各种计算问题的分析带来了新发现和激动人心的机会。在生物医学研究和个性化医疗领域，多组学整合的重要性在于它能够提供对复杂生物系统的全面而整体的理解。这项技术将基础研究与临床实践联系起来。从整合的组学数据中获得的见解可以转化为用于诊断、预后和治疗计划的临床工具。量子计算与机器学习的融合有望揭示多组学数据集中的复杂模式，为肺癌的分子景观提供前所未有的见解。由于多组学癌症数据的异质性、复杂性和高维性，其特点是相对于有限的肺癌患者样本数量，特征数量众多（例如基因表达、微RNA和DNA甲基化），本文的主要动机是整合多组学数据、独特的特征选择和使用量子机器学习对肺亚型进行诊断分类：肺鳞状细胞癌（LUSC-I）和肺腺癌（LUAD-II）。我们开发了一种方法来寻找 LUAD 和 LUSC 数据集之间最佳的区分特征，这具有生物标志物发现的潜力。

发布时间: 10/4/2024

查看原文

柯尔莫哥洛夫-阿诺德网络自动编码器

作者: Mohammadamin Moradi, Shirin Panahi, Erik Bollt, Ying-Cheng Lai

深度学习模型已彻底改变了各个领域，其中多层感知器 (MLP) 是数据回归和图像分类等任务的基石。然而，最近的一项研究引入了 Kolmogorov-Arnold 网络 (KAN) 作为 MLP 的有希望的替代方案，利用放置在边而不是节点上的激活函数。这种结构上的转变使 KAN 与 Kolmogorov-Arnold 表示定理紧密相符，有可能提高模型的准确性和可解释性。在本研究中，我们探讨了 KAN 在通过自动编码器进行数据表示方面的有效性，将它们的性能与传统卷积神经网络 (CNN) 在 MNIST、SVHN 和 CIFAR-10 数据集上的性能进行了比较。我们的结果表明，基于 KAN 的自动编码器在重建精度方面取得了具有竞争力的性能，从而表明它们作为数据分析任务中有效工具的可行性。

发布时间: 10/4/2024

查看原文

Synthio：利用合成数据增强小规模音频分类数据集

作者: Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha

我们提出了 Synthio，一种利用合成数据增强小规模音频分类数据集的新方法。我们的目标是利用有限的标记数据来提高音频分类的准确性。传统的数据增强技术通过应用人工变换（例如添加随机噪声或掩盖片段）来生成数据，但这些技术难以生成能够反映现实世界音频中真实多样性的数据。为了解决这一缺陷，我们建议用文本到音频 (T2A) 扩散模型生成的合成音频来增强数据集。然而，合成有效的增强数据具有挑战性，因为生成的数据不仅应该在声学上与底层的小规模数据集保持一致，而且还应该具有足够的组成多样性。为了克服第一个挑战，我们使用偏好优化将 T2A 模型的生成与小规模数据集对齐。这确保了生成数据的声学特征与小规模数据集保持一致。为了解决第二个挑战，我们提出了一种新颖的标题生成技术，该技术利用大型语言模型的推理能力来 (1) 生成多样化且有意义的音频标题，以及 (2) 迭代地改进其质量。生成的标题然后用于提示对齐的 T2A 模型。我们在十个数据集和四个模拟的有限数据设置中对 Synthio 进行了广泛的评估。结果表明，我们的方法始终优于所有基线，使用仅在弱标题 AudioSet 上训练的 T2A 模型，性能提高了 0.1%-39%。

发布时间: 10/4/2024

查看原文

EAB-FL: 联邦学习中通过模型投毒攻击加剧算法偏差

作者: Syed Irfan Ali Meerza, Jian Liu

联邦学习 (FL) 是一种允许多个参与方协作训练共享模型而无需公开其私有数据的技术。由于其独特的隐私优势，它变得越来越流行。然而，由于数据的异质性和参与方选择，FL 模型可能会对某些人口群体（例如种族和性别群体）产生偏见。研究人员已经提出了各种策略来表征 FL 算法的群体公平性，以解决这个问题。然而，这些策略在面对故意对抗性攻击时的有效性尚未得到充分探索。虽然现有研究已经揭示了恶意参与者对 FL 系统造成的各种威胁（例如模型中毒攻击），但他们的主要目标是降低模型精度，而利用中毒模型更新来加剧模型不公平性的潜力仍然未被探索。在本文中，我们提出了一种新型的模型中毒攻击，EAB-FL，重点是加剧群体不公平性，同时保持良好的模型效用水平。在三个数据集上的大量实验表明了我们攻击的有效性和效率，即使采用了最先进的公平性优化算法和安全聚合规则。

发布时间: 10/4/2024

查看原文

模型比较：XNet 优于 KAN

作者: Xin Li, Zhihong Jeff Xia, Xiaotao Zheng

在计算数学和人工智能领域，精确的数据建模至关重要，尤其是在预测性机器学习任务中。本文进一步探讨了 XNet，这是一种利用复值柯西积分公式的新型算法，它提供了一种优越的网络架构，超越了传统的多层感知器 (MLP) 和 Kolmogorov-Arnold 网络 (KAN)。XNet 在低维和高维空间中各种任务上的速度和准确性方面都得到了显著提升，重新定义了数据驱动模型开发的范围，并在诸如 LSTM 之类的成熟时间序列模型方面提供了实质性的改进。

发布时间: 10/4/2024

查看原文

量化多模态、多语言检索训练中翻译与原生感知之间的差距

作者: Kyle Buettner, Adriana Kovashka

缺乏能够充分考虑跨语言和文化图像字幕中感知差异的多语言视觉语言模型。本研究通过多模态、多语言检索案例研究，量化了现有模型灵活性不足的问题。我们通过实证表明，在来自德语母语感知的字幕和从英语机器翻译或人工翻译成德语的字幕上训练，性能存在差距。为了解决这些差距，我们进一步提出了和评估了字幕增强策略。虽然我们实现了平均召回率的提升 (+1.3)，但差距仍然存在，表明这是一个需要未来社区进一步研究的领域。

发布时间: 10/4/2024

查看原文

基于似然的条件深度生成模型分布回归方法

作者: Shivam Kumar, Yun Yang, Lizhen Lin

在本研究中，我们探索了条件深度生成模型在分布回归统计框架下的理论性质，其中响应变量位于高维环境空间中，但集中在潜在的低维流形周围。更具体地说，我们研究了基于似然的方法估计这些模型的大样本性质。我们的结果导致了筛最大似然估计器 (MLE) 的收敛速度，用于估计给定预测变量的响应的条件分布（及其演化的对应物）在 Hellinger（Wasserstein）度量中的收敛速度。我们的速率仅取决于真实条件分布的内在维度和光滑度。这些发现从统计基础的角度解释了为什么条件深度生成模型可以规避维数灾难，并证明它们可以学习更广泛的几乎奇异的条件分布。我们的分析还强调了在数据支持足够接近流形时，向数据引入小的噪声扰动的重要性。最后，在我们的数值研究中，我们展示了使用合成数据集和真实世界数据集有效地实施所提出的方法，这也为我们的理论发现提供了补充验证。

发布时间: 10/4/2024

查看原文