arXiv 论文列表

作者: Zheng Wang, Wanwan Wang, Yimin Huang, Zhaopeng Peng, Ziqi Yang, Ming Yao, Cheng Wang, Xiaoliang Fan

arXiv:2410.13905v2 宣告类型: replace-cross 摘要：近年来，图神经网络（GNNs）常被用于社交推荐系统。然而，现实场景经常面临着用户隐私和商业约束方面的挑战，阻碍了直接访问其他平台的宝贵社交信息。虽然许多现有方法在没有直接社交数据访问的情况下解决了基于矩阵分解的社交推荐问题，但在类似条件下开发以图神经网络为基础的联邦社交推荐模型仍然鲜有探索。为解决这一问题，我们提出了一种新颖的垂直联邦社交推荐方法，利用隐私保护的双平面图卷积网络（P4GCN）以在无需直接访问敏感社交信息的情况下提升推荐准确性。首先，我们引入了一个Sandwich-Encryption模块，以确保协作计算过程中的全面数据隐私。其次，我们对隐私保证进行了详尽的理论分析，考虑了好奇方和诚实方的参与情况。在四个真实世界的数据集上的广泛实验表明，P4GCN在推荐准确性方面优于现有的最先进的方法。

发布时间: 2/4/2025

查看原文

基于模型的结构化变压器优化方法

作者: Jakub Grudzien Kuba, Pieter Abbeel, Sergey Levine

arXiv:2410.13106v2 通知类型: 交叉替换摘要：大型神经网络在预测任务中表现出色，但在应用于设计问题，如蛋白质工程或材料发现时，需要解决离线模型导向优化（MBO）问题。虽然预测模型可能不能直接转化为有效的设计，但最近的MBO算法结合了强化学习和生成模型方法。同时，理论工作表明，利用目标函数的结构可以提高MBO性能。我们提出了Cliqueformer，这是一种基于变换器的架构，通过功能性图形模型（FGM）学习黑盒函数的结构，无需依赖显式的保守方法来应对分布偏移。在化学和基因设计等多种领域中，Cliqueformer的性能优于现有方法。

发布时间: 2/4/2025

查看原文

异步去中心化学习的模型碎片化增强

作者: Sayan Biswas, Anne-Marie Kermarrec, Alexis Marouani, Rafael Pires, Rishi Sharma, Martijn de Vos

arXiv:2410.12918v2 公告类型: 替换-交叉摘要: 中心化学习 (Centralized Learning, CL) 是一种允许网络节点在无需共享原始数据的情况下协作训练机器学习模型的新兴技术。处理“狭路相逢”的问题，即计算或通信速度较慢的节点，是对中心化学习中的一个关键挑战。我们提出了一种名为 DivShare 的新颖的异步学习算法，该算法能够在存在通信“狭路相逢”情况下实现模型快速收敛。DivShare 通过使节点将模型分割为参数子集，并且在并行于计算的情况下，将每个子集发送到其他节点的随机样本（而不是按顺序交换完整模型）来实现这一点。这种将较小片段的传输允许更有效地使用集体带宽，并使得网络链接速度较慢的节点能够快速贡献其至少部分模型参数。通过理论证明 DivShare 的收敛性，我们提供了迄今为止第一个正式证明的异步学习算法收敛性的证明，该算法考虑了存在延迟的异步通信的影响。我们使用两种最新的中心化学习基准算法 AD-PSGD 和 Swift 对 DivShare 进行了实验性评估，并使用了两个标准数据集 CIFAR-10 和 MovieLens。我们发现，在 CIFAR-10数据集上，即使存在通信“狭路相逢”，DivShare 的时间对准确性的提高可以达到 AD-PSGD 的 3.9 倍。与基准算法相比，DivShare 在 CIFAR-10 和 MovieLens 数据集上分别达到了最高 19.4% 的更好准确性和 9.5% 较低的测试损失。

发布时间: 2/4/2025

查看原文

基于多个弱评估者的语言模型偏好评价

作者: Zhengyu Hu, Jieyu Zhang, Zhihan Xiong, Alexander Ratner, Hui Xiong, Ranjay Krishna

arXiv:2410.12869v3 宣布类型: replace-cross 摘要：尽管大型语言模型（LLMs）取得了令人瞩目的成功，但在评估其输出的质量方面，尤其是在“偏好”方面的评估仍然是一个关键挑战。现有工作通常利用另一LLM作为裁判对LLM输出进行成对比较，但这种基于模型的评估者是一个“弱评估者”，因为存在“矛盾偏好”的情况，例如输出A优于B，B优于C，但C又优于A，导致评价结果矛盾。为了解决这个问题，我们引入了GED（偏好图集合与去噪方法），这是一种新颖的方法，利用多个基于模型的评估者构建偏好图，然后通过对这些图进行集成和去噪，以获得更准确、无矛盾的评价结果。特别地，我们的方法包括两个主要阶段：将评价汇总到一个统一的图中，并应用去噪过程消除循环不一致性，确保有向无环图（DAG）结构。我们为我们的框架提供了理论保证，证明了其在恢复真实偏好结构方面的有效性。在十个基准测试上的广泛实验显示，GED在三种应用场景中表现优越：模型排名、响应选择和模型对齐任务。值得注意的是，GED结合了小型LLM评估者（如Llama3-8B、Mistral-7B、Qwen2-7B）来超越更强的评估者（如Qwen2-72B），展示了其在提高评价可靠性并增强模型性能方面的有效性。

发布时间: 2/4/2025

查看原文

使用语义网络和下一token概率 characterization 大型语言模型中的模型崩塌

作者: Daniele Gambetta, Gizem Gezici, Fosca Giannotti, Dino Pedreschi, Alistair Knott, Luca Pappalardo

arXiv:2410.12341v2 宣告类型: 替换-交叉摘要: 随着合成内容越来越多地渗透到网络中，生成式AI模型可能会经历一个自我吞噬过程，在这个过程中，它们会使用自己的输出进行微调。这一自我吞噬可能导致模型崩溃现象，即生成式AI模型在后续代际中的性能和多样性出现退化。近期的研究已经探讨了各种生成式AI模型和不同类型数据中模型崩溃的出现。然而，当前对模型崩溃的表征往往过于简单，并缺乏全面的评估。在本文中，我们对三种文本数据集进行了全面调查，利用语义网络分析文本的重复性和多样性，利用下一个标记的概率来量化多样性的损失。我们还研究了合成标记的比例如何影响模型崩溃的严重程度，并进行了跨数据集评估以识别领域特定的差异。通过提出更详细的模型崩溃评估的指标和策略，我们的研究为开发稳健的生成式AI系统提供了新的见解。

发布时间: 2/4/2025

查看原文

QSpec: 基于互补量化方案的 speculation 解码

作者: Juntao Zhao, Wenhao Lu, Sheng Wang, Lingpeng Kong, Chuan Wu

arXiv:2410.11305v2 宣告类型: replace-cross 摘要：量化已被广泛采用以加快大型语言模型（LLMs）的推理速度并减少内存消耗。虽然联合量化激活权重通过低精度内核加速了推理过程，但我们发现它在多步推理任务中表现严重下降，使其变得无效。我们提出了一种新的量化范式，称为QSPEC，它无缝地结合了两种互补的量化方案，用于推测性解码。利用几乎无成本的执行切换，QSPEC 以低精度快速执行激活权重量化生成令牌，并使用高精度权重仅量化验证这些令牌，有效地结合了这两种量化方案的优点。与高精度量化方法相比，QSPEC 实际上在没有质量损失的情况下，将令牌生成吞吐量提高了高达1.64倍，从而使其与其他低精度量化方法区分开来。这种增强效果在各种服务任务、模型规模、量化方法和批处理大小方面是一致的。与最先进的推测性解码方法相比，我们的方法重用了权重和KV缓存，在批处理服务中实现了高达1.55倍的加速，同时保持了较高的接受率。此外，QSPEC 提供了一种即插即用的优势，无需任何训练。我们相信，QSPEC 证明了对未来部署高保真量化方案的独特优势，特别是在内存受限的场景中（例如边缘设备）。

发布时间: 2/4/2025

查看原文

基于可重复的机器学习的语音病理检测：引入音高差特征

作者: Jan Vrba, Jakub Steinbach, Tom\'a\v{s} Jirsa, Laura Verde, Roberta De Fazio, Yuwen Zeng, Kei Ichiji, Luk\'a\v{s} H\'ajek, Zuzana Sedl\'akov\'a, Zuzana Urb\'aniov\'a, Martin Chovanec, Jan Mare\v{s}, Noriyasu Homma

arXiv:2410.10537v2 语音病理检测类型：替换交叉摘要：本研究介绍了使用公开可用的Saarbr\"ucken语音数据库（SVD）数据库和结合常用声学手工特征与两个新型特征（音高差和NaN特征，即失败的基频估计）的稳健特征集的新方法。我们使用网格搜索方法评估了六种机器学习（ML）分类器——支持向量机、k-近邻、朴素贝叶斯、决策树、随机森林和AdaBoost，并使用了选定分类器的可行超参数和20480种不同的特征子集进行评估。针对每种分类器类型，我们使用重复分层交叉验证验证了排序前1000的分类器-特征子集组合。为了解决类别不平衡问题，我们应用了K-Means SMOTE方法来扩充训练数据。我们的方法取得了出色的表现，分别达到了85.61%、84.69%和85.22%的未加权平均召回率（UAR）（针对女性、男性和综合结果）；我们故意省略了准确率，因为不平衡数据的准确性是一个高度偏倚的指标。这一进展表明机器学习方法在临床应用中具有显著的潜力，可以作为客观评估语音病理的一种有价值的辅助工具。为了使我们的方法使用更加便捷，并支持我们的主张，我们提供了一个公开可用的GitHub存储库，其中包含DOI 10.5281/zenodo.13771573。最后，我们提供了一个REFORMS清单，以提高我们的方法的可读性、可重复性和可验证性。

发布时间: 2/4/2025

查看原文

基于扩散的符号音乐生成的高效细粒度指导

作者: Tingyu Zhu, Haoyu Liu, Ziyu Wang, Zhimin Jiang, Zeyu Zheng

arXiv:2410.08435v2 生成类型：替代交叉摘要：开发生成模型以创建或条件化创建符号音乐因其数据可用性有限且音符音高需要高精度而面临独特的挑战。为应对这些挑战，我们引入了在扩散模型中高效的应用细粒度引导（FGG）方法。FGG 使扩散模型能够生成更符合专家作曲家控制和意图的音乐，这对于提高生成音乐的准确性、可听性和质量至关重要。这种方法使扩散模型在即兴创作和交互式音乐创作等高级应用中表现出色。我们推导了符号音乐生成中挑战的理论特征以及FGG方法的效果。我们提供了数值实验和客观评估来证明我们方法的有效性。我们还发布了演示页面来展示表演，这是音乐文献中首批使实时交互生成成为可能的演示页面之一。

发布时间: 2/4/2025

查看原文

COMPL-AI框架：对欧盟人工智能法案的技术解读与LLM基准测试套件

作者: Philipp Guldimann, Alexander Spiridonov, Robin Staab, Nikola Jovanovi\'c, Mark Vero, Velko Vechev, Anna-Maria Gueorguieva, Mislav Balunovi\'c, Nikola Konstantinov, Pavol Bielik, Petar Tsankov, Martin Vechev

arXiv:2410.07959v2 Announce Type: replace-cross 摘要：欧盟人工智能法案（AI Act）是负责任人工智能开发的一个重要步骤，但缺乏明确的技术解释，使得难以评估模型的合规性。本文提出了COMPL-AI，这是一个全面的框架，包括（i）欧盟AI法案的第一项技术解释，将广泛的监管要求转化为可测量的技术要求，重点是大型语言模型（LLMs），以及（ii）一个以全面调查和最先进的LLM基准实现为中心的开源基准套件。通过对12款知名LLM在COMPL-AI框架下的评估，我们揭示了现有模型和基准的不足，特别是在鲁棒性、安全性、多样性和公平性方面。本文强调了需要将关注点转移到这些方面的重要性和平衡发展大型语言模型以及更全面的法规对齐基准的必要性。同时，COMPL-AI首次展示了将法案的义务带到更具体的技术层面的可能性和困难。因此，我们的工作可以作为为模型提供商提供可操作建议的第一步，有助于欧盟持续努力应用该法案，例如制定GPAI行为守则。

发布时间: 2/4/2025

查看原文

基于定位然后编辑的知识编辑下的多跳事实召回

作者: Zhuoran Zhang, Yongxiang Li, Zijian Kan, Keyuan Cheng, Lijie Hu, Di Wang

arXiv:2410.06331v3 通告类型: replace-cross 摘要：定位-编辑范式在大型语言模型（LLMs）的知识编辑（KE）中显示出了显著的潜力。尽管以前的方法在单跳事实回忆任务上表现良好，但在涉及新编辑知识的多跳事实回忆任务中却一直表现不佳。在本文中，利用机制可解释性工具，我们首先发现，在多跳任务中，LLMs往往会从较深的MLP层中检索具有隐式主语信息的知识，而在单跳任务中，则依赖于浅层结构。这一区别解释了当前方法在多跳查询中的表现不佳，因为它们主要集中在使用单跳编辑提示编辑浅层结构，而让更深的层保持不变。为解决这个问题，我们提出了一种新的定位-编辑KE方法IFMET，旨在编辑浅层和深层MLP层。IFMET进一步引入了多跳编辑提示，以在推理的不同阶段定位和修改知识。实验结果表明，IFMET显著提高了在多跳事实回忆任务上的表现，克服了之前定位-编辑方法的局限性。

发布时间: 2/4/2025

查看原文