arXiv 论文列表

作者: Liang Kuang, Kuangpu Guo, Jian Liang, Jianguo Zhang

联邦学习 (FL) 允许在不共享私有数据的情况下进行协作式机器学习训练。大量研究表明，影响联邦学习模型性能的一个重要因素是不同客户端之间数据的异质性，尤其是在数据来自不同领域的情况下。一篇最近的论文介绍了方差感知双层原型聚类，并使用了一种新颖的 $\alpha$ -稀疏原型损失，它增加了类内相似度并减少了类间相似度。为了确保特征在特定集群内收敛，我们引入了一种改进的算法，即具有收敛集群的联邦原型学习，简称 FedPLCC。为了增加类间距离，我们根据每个原型所代表的集群的大小对每个原型进行加权。为了减少类内距离，考虑到距离较大的原型可能来自不同的领域，我们只选择一定比例的原型用于损失函数计算。在 Digit-5、Office-10 和 DomainNet 数据集上的评估表明，我们的方法优于现有方法。

发布时间: 9/30/2024

查看原文

混合信号加速器上DNN推理精度增强中的高效噪声抑制

作者: Seyedarmin Azizi, Mohammad Erfan Sadeghi, Mehdi Kamal, Massoud Pedram

本文提出了一种框架，通过减轻模拟计算组件的工艺导致和老化相关的变化对模拟神经网络精度的影响，来增强神经模型的鲁棒性。我们将这些变化建模为影响激活精度噪声，并在预训练模型的选定层之间引入一个去噪块。我们证明了训练去噪块显著提高了模型对各种噪声水平的鲁棒性。为了最小化添加这些块带来的开销，我们提出了一种探索算法来识别去噪块的最佳插入点。此外，我们提出了一种专门的架构来高效地执行去噪块，该架构可以集成到混合信号加速器中。我们使用在 ImageNet 和 CIFAR-10 数据集上训练的深度神经网络 (DNN) 模型评估了我们方法的有效性。结果表明，平均而言，通过接受 2.03% 的参数计数开销，由于变化导致的精度下降从 31.7% 降至 1.15%。

发布时间: 9/30/2024

查看原文

基于大语言模型的公众舆情事件热度预测研究

作者: Yi Ren, Tianyi Zhang, Weibin Li, DuoMu Zhou, Chenhao Qin, FangCheng Dong

近年来，随着大型语言模型的快速发展，GPT-4o 等多个模型展现出非凡的能力，在各种语言任务中超越了人类的表现。因此，许多研究人员开始探索它们在舆情分析领域的潜在应用。本研究提出了一种基于大型语言模型的舆情事件热度预测方法。首先，我们对 2022 年 7 月至 2023 年 12 月收集的 62,836 条中文热点事件数据进行了预处理和分类。然后，基于每个事件的在线传播热度指数，我们使用 MiniBatchKMeans 算法自动对事件进行聚类，并将它们分为四个热度等级（从低热度到极高热度）。接下来，我们从每个热度等级中随机选取 250 个事件，共计 1,000 个事件，用于构建评估数据集。在评估过程中，我们使用各种大型语言模型评估它们在两种情况下预测事件热度等级的准确性：无参考案例和有相似案例参考。结果表明，GPT-4o 和 DeepseekV2 在后一种情况下表现最佳，预测准确率分别达到 41.4% 和 41.5%。虽然总体预测准确率仍然相对较低，但值得注意的是，对于低热度（一级）事件，这两个模型的预测准确率分别达到 73.6% 和 70.4%。此外，预测准确率从一级到四级呈下降趋势，这与实际数据集中不同热度等级之间数据分布不均匀有关。这表明，随着更强大的数据集的出现，基于大型语言模型的舆情事件热度预测将在未来具有重要的研究潜力。

发布时间: 9/30/2024

查看原文

一种能预知人类信念和决策的认知型人机协作任务规划器

作者: Shashank Shekhar, Anthony Favier, Rachid Alami

我们对人类感知任务规划框架进行了重大扩展，该框架专门针对人类和机器人之间存在间歇性共享执行体验和重大信念差异的情况，特别是由于人类行为不可控。我们的目标是构建一个能够考虑不可控人类行为的机器人策略，从而能够预测机器人执行未共享操作（例如，当人类暂时离开共享环境以完成子任务时）时可能取得的进展。但是，这种预测是从人类的角度考虑的，人类可以使用机器人的估计模型。为此，我们提出了一种新的规划框架，并构建了一个基于 AND-OR 搜索的求解器，该求解器集成了知识推理，包括通过视角获取进行情况评估。我们的方法动态地建模和管理潜在进展的扩展和收缩，同时准确地跟踪代理何时（以及何时不）共享任务执行体验。规划器系统地评估情况，并忽略它有理由认为对人类来说不可能的世界。总的来说，我们的新求解器可以估计人类和机器人沿着潜在行动路线的独特信念，从而能够合成计划，其中机器人选择合适的时机进行沟通，即通知、回复询问或延迟本体操作，直到可以共享执行体验。在两个领域（一个新领域和一个改编领域）的初步实验表明了该框架的有效性。

发布时间: 9/30/2024

查看原文

MIMII-Gen：一种用于异常声音检测系统模拟评估的生成式建模方法

作者: Harsh Purohit, Tomoya Nishida, Kota Dohi, Takashi Endo, Yohei Kawaguchi

机器声音的异常检测系统开发和验证面临着录音不足和异常稀缺的重大挑战。为了解决这些局限性，我们提出了一种新方法，利用基于潜在扩散的模型，该模型集成了编码器-解码器框架，以生成机器声音中各种异常。我们的方法利用 Flan-T5 模型对从音频文件元数据派生的字幕进行编码，从而通过精心设计的 U-Net 架构实现条件生成。这种方法帮助我们的模型在 EnCodec 潜在空间中生成音频信号，确保高度的上下文相关性和质量。我们使用 Fr\'echet 音频距离 (FAD) 分数和其他指标客观地评估了我们生成的声音的质量，证明我们的方法在生成可靠的机器音频方面优于现有模型，这些音频与实际异常情况非常相似。使用我们生成的数据评估异常检测系统表明了强烈的相关性，曲线下面积 (AUC) 分数与原始分数相差 4.8%，验证了我们生成数据的有效性。这些结果证明了我们的方法在增强各种以前未见条件下异常检测系统的评估和鲁棒性方面的潜力。音频样本可在 \url{https://hpworkhub.github.io/MIMII-Gen.github.io/} 找到。

发布时间: 9/30/2024

查看原文

EmoPro：一种基于语言模型的语音合成中情感表达的提示选择策略

作者: Haoyu Wang, Chunyu Qiang, Tianrui Wang, Cheng Gong, Qiuyu Liu, Yu Jiang, Xiaobao Wang, Chenyang Wang, Chen Zhang

近年来，在庞大数据集上训练的语音合成模型取得了显著进展，展现出非凡的零样本能力。这些模型可以根据提示输入控制生成语音的内容、音色和情感。尽管取得了这些进展，但提示的选择对输出质量有重大影响，而大多数现有选择方案并未充分解决情感强度的控制问题。为了解决这个问题，本文提出了一种针对情感可控语音合成的两阶段提示选择策略 EmoPro。该策略重点从四个方面评估提示，以选择高表达性和高质量的提示：情感表达强度、语音质量、文本情感一致性和模型生成性能。实验结果表明，与基线方法相比，使用该方法选择的提示能够生成更具情感表达力和吸引力的合成语音。音频样本和代码将在 https://whyrrrrun.github.io/EmoPro/ 上提供。

发布时间: 9/30/2024

查看原文

公平感知的多目标进化学习

作者: Qingquan Zhang, Jialin Liu, Xin Yao

多目标进化学习（MOEL）在训练更公平的机器学习模型方面展现出优势，它考虑了一组预定义的相互冲突的目标，包括准确性和不同的公平性度量。最近的研究提出在模型训练过程中构建一个公平性度量的代表性子集作为 MOEL 的优化目标。然而，代表性度量集的确定依赖于数据集、先验知识，并且需要大量的计算成本。此外，这些代表性度量可能在不同的模型训练过程中有所不同。本文提出在模型训练过程中动态自适应地在线确定代表性度量集，而不是使用在模型训练之前确定的静态预定义集。动态确定的代表性集随后被用作 MOEL 框架的优化目标，并且可以随着时间变化。在 12 个知名基准数据集上的大量实验结果表明，与最先进的方法相比，我们提出的框架在准确性和 25 个公平性度量方面都取得了优异的性能，尽管其中只有少数被动态选择并用作优化目标。结果表明，在训练过程中动态设置优化目标的重要性。

发布时间: 9/30/2024

查看原文

基于任务算术知识整合的多样化设备异构联邦学习

作者: Mahdi Morafah, Vyacheslav Kungurtsev, Hojin Chang, Chen Chen, Bill Lin

联邦学习已成为协作机器学习中的一种很有前途的范式，同时保护了用户数据隐私。尽管具有潜力，但标准联邦学习缺乏对各种异构设备原型的支持，这些原型在模型和数据集大小方面差异很大——从小型的物联网设备到大工作站。现有知识蒸馏技术仅部分解决了这一局限性，这些技术通常无法有效地将知识转移到具有不同能力的各种设备原型之间。这种失败主要源于两个问题：来自能力更强的设备的知识被来自能力较弱的设备的知识稀释，以及在所有设备之间使用单个集成 logits 作为蒸馏目标，这忽略了它们各自的学习能力和每个设备的独特贡献。为了解决这些挑战，我们引入了 TAKFL，这是一种新颖的基于 KD 的框架，它将从每个设备原型的集成中进行的知识转移视为一项单独的任务，独立地蒸馏每个集成以保留其独特的贡献并避免稀释。TAKFL 还结合了一种基于 KD 的自正则化技术，以缓解与噪声和无监督集成蒸馏过程相关的问题。为了整合单独蒸馏的知识，我们引入了自适应任务算术知识整合过程，允许每个学生模型定制知识整合以获得最佳性能。此外，我们还给出了理论结果，证明了任务算术在将知识转移到具有不同能力的异构设备之间的有效性。我们方法在 CV 和 NLP 任务中的全面评估表明，TAKFL 在各种数据集和设置中取得了 SOTA 结果，显著优于现有的基于 KD 的方法。代码已发布在 https://github.com/MMorafah/TAKFL。

发布时间: 9/30/2024

查看原文

基于图神经网络的数字资产开发回顾与遗忘学习

作者: Zara Lisbon

在数字资产快速发展的环境中，对强大的数据隐私和法规遵从性的需求日益增强。本文探讨了图神经网络 (GNN) 在数字资产管理中的关键作用，并介绍了专门针对 GNN 架构的创新性遗忘技术。我们将遗忘策略分为两大类：数据驱动近似，它通过操纵图结构来隔离和消除特定节点的影响；以及模型驱动近似，它修改 GNN 本身的内部参数和架构。通过考察这些遗忘方法的最新进展，我们突出了它们在各种用例中的适用性，包括欺诈检测、风险评估、代币关系预测和去中心化治理。我们讨论了在现实时间金融应用中平衡模型性能与数据遗忘需求的固有挑战。此外，我们提出了一种结合两种遗忘策略优势的混合方法，以提高 GNN 在数字资产生态系统中的效率和有效性。最终，本文旨在提供一个全面的框架，用于理解和实施 GNN 遗忘技术，为数字资产领域机器学习的安全合规部署铺平道路。

发布时间: 9/30/2024

查看原文

利用长文本大型语言模型进行企业应用中的多文档理解和摘要

作者: Aditi Godbole, Jabin Geevarghese George, Smita Shandilya

跨越不同领域的非结构化数据呈爆炸式增长，使得多文档理解和摘要成为一项至关重要的任务。传统的方案往往难以捕捉相关语境、保持逻辑一致性，以及从冗长文档中提取关键信息。本文探讨了利用长上下文大型语言模型 (LLMs) 进行多文档摘要，展示了其在把握广泛联系、提供连贯摘要以及适应不同行业领域和与企业应用/系统集成方面的卓越能力。文章讨论了有效部署长上下文 LLMs 的多文档摘要工作流程，并以法律应用、人力资源、财务和采购等企业职能以及医疗和新闻领域为例进行说明。这些案例研究表明，效率和准确性均得到显著提升。本文还仔细分析了数据集多样性、模型可扩展性以及偏差缓解和事实准确性等伦理考量等技术障碍。最后，提出了未来研究方向，旨在增强长上下文 LLMs 的功能和应用，使其成为跨越不同领域和企业应用的信息处理转型的重要工具。

发布时间: 9/30/2024

查看原文