arXiv 论文列表

作者: Qingkai Fang, Yan Zhou, Shoutao Guo, Shaolei Zhang, Yang Feng

arXiv:2505.02625v1 交叉公告类型：跨学科摘要：实时、智能且自然的语音交互是下一代人机交互的关键组成部分。近年来，基于大规模语言模型（LLMs）构建智能语音聊天机器人的潜力得到了彰显。在本文中，我们介绍了LLaMA-Omni 2，这是一系列从0.5B到14B参数的语音语言模型（SpeechLMs），能够实现高质量的实时语音交互。LLaMA-Omni 2 基于Qwen2.5系列模型构建，集成了语音编码器和自回归流式语音解码器。尽管仅在200K个多轮语音对话样本上进行训练，LLaMA-Omni 2 在几个语音问答和语音指令跟随基准测试中表现出了强大的性能，超越了以前的最先进的语音语言模型，例如GLM-4-Voice，后者是在数百万小时的语音数据上进行训练的。

发布时间: 5/6/2025

查看原文

EMORL：集成多目标强化学习用于高效灵活的大型语言模型微调

arXiv:2505.02579v1 宣告类型: cross 摘要: 近期在大规模语言模型（LLM）微调中的强化学习（RL）进展显示出了在解决多目标任务方面的潜力，但仍面临着重大挑战，包括复杂的多目标平衡、低训练效率、较差的扩展性和有限的可解释性。利用集成学习的原则，我们引入了一种集成多目标RL（EMORL）框架，该框架在训练过程中对多个模型进行微调，然后优化它们的聚合，以提高效率和灵活性。我们的方法首次结合了单个模型的最后一层隐藏状态，并纳入了多个目标的上下文信息。该方法通过层次网格搜索算法来识别最优加权组合。我们在咨询师反思生成任务上评估了EMORL，使用文本评分LLM来评估生成物并在RL微调过程中提供奖励。通过在PAIR和Psych8k数据集上的全面实验，我们展示了EMORL相对于现有基线的优势：显著更低且更稳定的训练消耗（17,529±1,650个数据点和6,573±147.43秒），改进的可扩展性和可解释性，以及在多个目标上的可比较性能。

发布时间: 5/6/2025

查看原文

重思联邦图学习：一种数据凝聚视角

作者: Hao Zhang, Xunkai Li, Yinlin Zhu, Lianglin Hu

arXiv:2505.02573v1 共享类型: cross 摘要：联邦图学习是一种广泛认可的技术，通过多客户端图促进图神经网络（GNNs）的协作训练。然而，现有方法在联邦优化过程中严重依赖模型参数或梯度的通信，未能充分解决由复杂多样的图分布引入的数据异质性问题。尽管一些方法尝试在通信期间在服务器和客户端之间共享额外的消息以提高联邦收敛性，但这种方法引入了显著的隐私风险并增加了通信开销。为了解决这些问题，我们引入了压缩图的概念作为新的优化载体，以解决FGL数据异质性问题，并提出了一种新的FGL范式FedGM。具体来说，我们利用广义压缩图共识从分布式图中聚合全面的知识，同时通过一次传输压缩数据来最小化通信成本和隐私风险。在六个公开数据集上的广泛实验一致证明了FedGM优于最先进的基线方法，突显了其作为新型FGL范式的潜力。

发布时间: 5/6/2025

查看原文

鲁棒性质疑图神经网络的可解释性：我们应该怎么做？

arXiv:2505.02566v1 Announce Type: cross 摘要：图神经网络（GNNs）已成为基于图的数据分析的基石，广泛应用于生物信息学、社交网络和推荐系统等领域。然而，在对抗攻击场景如投毒和规避攻击下，模型可解释性和鲁棒性之间的相互影响仍不甚了解。本文提出了一种全面的基准，以系统地分析各种因素对GNNs可解释性的影响，包括增强鲁棒性的防御机制的影响。我们基于GCN、SAGE、GIN和GAT这六种GNN架构，在来自两个不同领域的五个数据集上进行了评估，采用了四种可解释性度量：忠实度、稳定性、一致性和稀疏性。本研究探讨了在模型训练前后应用的防止投毒和规避攻击的防御措施如何影响可解释性，并强调了在鲁棒性和可解释性之间的关键权衡。该框架将作为开源发布。研究结果揭示了根据选择的防御方法和模型架构特性，可解释性存在显著差异。通过建立标准化基准，本工作为开发既对对抗威胁鲁棒又可解释的GNNs奠定了基础，有助于在敏感应用中增强对它们部署的信任。

发布时间: 5/6/2025

查看原文

Bielik v3 小型：技术报告

作者: Krzysztof Ociepa, {\L}ukasz Flis, Remigiusz Kinas, Krzysztof Wr\'obel, Adrian Gwo\'zdziej

arXiv:2505.02550v1 类型: cross 摘要：我们介绍了Bielik v3，这是一个针对波兰语处理优化的参数效率生成文本模型系列（15亿参数和45亿参数）。这些模型展示了更小、优化良好的架构可以在计算资源显著减少的情况下，达到与更大模型相当的性能。我们的方法包含以下几个关键创新：一个自定义的波兰分词器（APT4），显著提高了分词效率；加权指令交叉熵损失来平衡不同指令类型的学习；以及自适应学习率，根据训练进度动态调整。这些模型在包含2920亿个令牌、跨越3.03亿份文档的精心编纂语料库上进行训练，它们在多个基准测试中表现出色，包括Open PL LLM Leaderboard、复杂波兰文本理解基准、Polish EQ-Bench和波兰医疗领导榜。45亿参数的模型在性能上与大小是其2-3倍的模型相当，而1.5亿参数的模型尽管其极为紧凑，仍表现出强大的性能。这些进步为资源受限应用中的少有表示语言的参数效率语言建模设立了新的基准，使高质量的波兰语AI更加适用于资源受限的应用。

发布时间: 5/6/2025

查看原文

懒但有效：具有异质数据的协作个性化联邦学习

作者: Ljubomir Rokvic, Panayiotis Danassis, Boi Faltings

arXiv:2505.02540v1 Announce Type: cross 摘要：在联邦学习中，客户端数据分布的异质性往往意味着单一全局模型并不适合个别客户端。例如，在为键盘训练下一个词预测模型时：由于人口统计学（方言、年龄等）、语言熟练度和写作风格，用户特定的语言模式会导致客户端间具有高度非IID的数据集。其他示例包括在不同机器上获取的医学影像，或不同车辆类型的驾驶数据。为了解决这个问题，我们提出了一种简单而有效的个性化联邦学习框架（pFedLIA），该框架在模型聚合之前利用一种计算效率高的影响近似方法，称为“惰性影响”，以分布式方式对客户端进行聚类。在每个聚类内，数据所有者合作共同训练一个能够捕捉客户端特定数据模式的模型。我们的方法在各种合成和真实世界设置中被证明能够成功地补回由于数据分布非IID带来的全局模型性能下降，特别是在北欧语言的下一个词预测任务以及多个基准任务中。该方法的性能与理想的Oracle聚类相当，并且明显优于现有基线，例如在CIFAR100上的性能改进达到了17%。

发布时间: 5/6/2025

查看原文

增强约束单调神经网络：超越有界激活函数的普遍逼近能力

作者: Davide Sartor, Alberto Sinigaglia, Gian Antonio Susto

arXiv:2505.02537v1 类别：交叉学科摘要：通过构造在多层感知机（MLP）中施加单调性的传统技术包括使用非负权重约束和有界的激活函数，这提出了众所周知的优化挑战。在这项工作中，我们泛化了先前的理论结果，表明具有非负权重约束且激活函数在交替两侧饱和的MLP是对单调函数的通用逼近器。此外，我们证明了激活函数的饱和侧与权重约束的符号之间的等价性。这种连接允许我们证明具有凸单调激活函数和非正权重约束的MLP也符合通用逼近器的标准，与它们的非负权重约束的对应物相反。我们的结果为先前工作中观察到的经验有效性提供了理论依据，同时可能导致可能的架构简化。此外，为进一步缓解优化困难，我们提出了一种替代形式，允许网络根据权重的符号调整其激活函数。这消除了权重重新参数化的需要，简化了初始化并提高了训练稳定性。实验评估证实了理论结果的有效性，表明我们提出的新方法在与传统单调架构相比时具有竞争力。

发布时间: 5/6/2025

查看原文

边缘端低延迟推理的大语言模型分区

作者: Dimitrios Kafetzis, Ramin Khalili, Iordanis Koutsopoulos

arXiv:2505.02533v1 类别：交叉学科摘要：基于自回归解码器的大型语言模型（LLMs）逐个生成文本，其中每个token代表文本的一个离散单元。每当生成一个新的token并将其附加到部分输出序列时，序列的长度增加，同时内存和计算负载也随之增加，这是因为多头注意力（MHA）层中的扩展键值缓存存储了所有之前生成的token的中间表示。由于这一迭代过程不断增加内存和计算需求，在资源受限的边缘环境中进行分层分区往往会导致内存超载或高推断延迟。为了应对这个问题并减少推断延迟，我们提出了一种资源感知的Transformer架构分区算法，在生成token的过程中定期更新分区决策。该方法是基于设备当前可用资源和网络连接带宽的瞬时信息。在首次执行时，算法将块分配到各个设备上，并在后续执行中根据资源紧张情况在设备之间迁移这些块，以确保迁移延迟和推断延迟之和保持较低水平。我们的方法在注意力头级别对解码器进行分区，将每个注意力头与其键值缓存并置，并允许在资源紧张时动态迁移。通过将不同的注意力头分配到不同的设备，我们利用了注意力头并行执行的优势，从而实现了显著的推断延迟减少。我们的实验表明，在小型设置（3-5个设备）中，所提出的方法实现了完全最优解决者延迟的15%到20%左右，在大规模测试中，与最先进的分层分区方法相比，所提出的方法在推断速度和内存使用方面实现了显着改进。

发布时间: 5/6/2025

查看原文

揭示野生环境中大语言模型部署的景观：一项实证研究

作者: Xinyi Hou, Jiahao Han, Yanjie Zhao, Haoyu Wang

arXiv:2505.02502v1 宣布类型: 交叉学科摘要：背景：大型语言模型（LLMs）通过开源和商业框架越来越广泛地部署，使个人和组织能够自行托管高级AI能力。然而，不安全的默认设置和错误配置往往将LLM服务暴露在公共互联网上，提出了重大的安全和系统工程风险。目标：本研究旨在通过一项大规模实证研究揭示野生环境中公共可访问的LLM部署情况，重点关注服务的流行程度、暴露特性、系统漏洞及其相关风险。方法：我们进行了全网测量，以确定15个框架中的公共可访问LLM部署情况，发现320,102个服务。我们提取了158个独特的API端点，并根据功能和安全风险将其分为12个功能性类别。我们进一步分析了配置、认证实践和地理分布，揭示了实际LLM系统工程中的部署趋势和系统问题。结果：我们的研究显示，公共LLM部署正在快速增长但往往是不安全的。在所有端点中，我们观察到使用不安全协议、TLS配置不良和对关键操作的未认证访问的普遍情况。安全风险，包括模型披露、系统泄漏和未经授权的访问，普遍存在，强调了需要默认安全框架和更强的部署实践。结论：公共可访问的LLM部署遭受广泛的安全和配置缺陷，使服务面临滥用、模型窃取、资源劫持和远程利用的风险。加强默认安全设置、部署实践和操作标准对于不断增长的自行托管LLM生态系统至关重要。

发布时间: 5/6/2025

查看原文

Corr2Distrib: 将模棱两可的对应关系变成预测可靠六维姿态分布的盟友

作者: Asma Brazi, Boris Meden, Fabrice Mayran de Chamisso, Steve Bourgeois, Vincent Lepetit

arXiv:2505.02501v1 宣布类型: cross 摘要: 我们介绍了Corr2Distrib，这是首款基于对应关系的方法，可以从RGB图像中估计6D相机姿态分布，并且解释了观测结果。确实，对称性和遮挡引入了视觉上的不确定性，导致存在多个有效的姿态。虽然一些最近的方法尝试解决这个问题，但它们并未依赖于局部对应关系，根据BOP挑战，局部对应关系当前是估计单个6DoF姿态解效用最高的方法之一。仅使用对应关系来估计姿态分布并不直接，因为由视觉不确定性引起的模糊对应关系大幅降低了PnP的表现。通过Corr2Distrib，我们将这些不确定性转化为优势，以恢复所有有效的姿态。Corr2Distrib 首先为对象表面的每个3D点学习一种具有描述符和局部坐标系的对称性感知表示。这种表示使得可以从单个2D-3D对应关系生成3DoF旋转假设。接下来，我们使用PnP和姿态评分来细化这些假设为6DoF的姿态分布。在复杂非合成场景的实验评估中，Corr2Distrib 在姿态分布估计和从RGB图像估计单个姿态方面均优于现有解决方案，展示了基于对应关系方法的潜力。

发布时间: 5/6/2025

查看原文