arXiv 论文列表

RLSA-PFL：隐私保护联邦学习中的鲁棒轻量级安全聚合与模型不一致性检测

作者: Nazatul H. Sultan, Yan Bo, Yansong Gao, Seyit Camtepe, Arash Mahboubi, Hang Thanh Bui, Aufeef Chauhan, Hamed Aboutorab, Michael Bewong, Praveen Gauravaram, Rafiqul Islam, Sharif Abuadbba

arXiv:2502.08989v1 分享类型: 剪辑摘要: 联邦学习（FL）允许用户通过只共享本地模型来协作训练一个全局机器学习模型，而无需向中央服务器暴露其隐私数据。这种分布式学习特别适用于数据隐私至关重要的场景，并且受到了产业界和学术界的广泛关注。然而，研究表明，FL存在隐私漏洞，对手可能从共享的模型参数中推断出敏感信息。在本文中，我们提出了一种基于掩码的安全聚合方案，利用轻量级的密码原语来减轻隐私风险。与现有方法相比，我们的方案具有以下优势。首先，它只需要单次设置整个FL训练阶段，显著减少了通信开销。其次，通过利用中间服务器层和轻量级密钥协商方法，它减少了用户端的开销，消除了用户之间的交互需求。第三，该方案对用户掉线具有高度鲁棒性，用户可以在任何FL轮次加入。第四，它可以检测和防御恶意服务器活动，包括最近发现的模型一致性攻击。最后，我们的方案在半诚实和恶意设置下均保证安全。我们提供了安全分析以正式证明我们方法的鲁棒性。此外，我们实现了我们方案的端到端原型。我们进行了全面的实验和比较，结果表明，与现有解决方案相比，在通信和计算开销、功能性和安全性方面，我们的方案表现更优。

发布时间: 2/14/2025

查看原文

神经力场：从少量示例学习通用物理表示

作者: Shiqian Li, Ruihong Shen, Chi Zhang, Yixin Zhu

arXiv:2502.08987v1 类型:交叉摘要：物理推理是人类的一项非凡能力，使人们能够从有限的经验中快速学习和泛化。尽管当前的AI模型经过了大量的训练，但在Out-of-distribution（OOD）设置中仍然难以实现类似的泛化能力。这一局限性源于它们无法从观察中抽取出核心的物理原理。一个关键挑战是如何开发出能够有效从少量数据中学习和泛化物理动态的表示方法。在这里，我们提出了基于神经常微分方程（NODE）的神经力场（NFF）建模框架，该框架学习可解释的力场表示，并可以通过常微分方程（ODE）求解器高效地集成，以预测物体的轨迹。与依赖于高维潜在空间的现有方法不同，NFF能够以可解释的方式捕捉基本的物理概念，如重力、接触和支持。在两个具有挑战性的物理推理任务上的实验表明，NFF仅使用少量示例就能实现对未见过的场景的强大泛化能力。这种基于物理原理的表示方法使得可以通过交互式细化实现高效的前后向规划和快速适应。我们的工作表明，将基于物理原理的表示方法融入学习系统中，有助于弥合人工物理推理能力和人类物理推理能力之间的差距。

发布时间: 2/14/2025

查看原文

数量 fewer 未必胜过更多：多任务离线多智能体强化学习中的任务高效技能发现

作者: Xun Wang, Zhuoran Li, Hai Zhong, Longbo Huang

arXiv:2502.08985v1 任务类型: cross 摘要：作为一种数据驱动的方法，线下多智能体强化学习（MARL）仅从离线数据集中学习出优秀的策略，适用于历史数据丰富但交互成本高且风险高的领域。然而，大多数现有方法都是任务特定的，需要为新任务重新训练，导致冗余和低效率。为了解决这一问题，本文提出了一种任务高效的多任务离线MARL算法，即技能发现保守Q学习（Skill-Discovery Conservative Q-Learning，SD-CQL）。与现有的离线技能发现方法不同，SD-CQL通过重构下一个观察来发现技能，然后分别评估固定和变化的动作，并采用行为正则化的保守Q学习执行每种技能下的最优动作。这种方法消除了局部-全局对齐的需要，并能够从有限的小规模源任务中实现强多任务泛化能力。在StarCraftII的大量实验表明，SD-CQL在泛化能力和任务效率方面具有优越性。在14个任务集中，SD-CQL在10个任务集中表现最佳，单任务集最高提高了65%，在剩余四个任务集中，其性能距离最佳基线不超过4%。

发布时间: 2/14/2025

查看原文

基于试错解释的在上下文中个性化对齐调参-free

作者: Hyundong Cho, Karishma Sharma, Nicolaas Jedema, Leonardo F. R. Ribeiro, Alessandro Moschitti, Ravi Krishnan, Jonathan May

arXiv:2502.08972v1 类型: cross 摘要：语言模型被调整为众多声音的集合，从而生成普遍化的输出，这些输出未必能够匹配特定用户的写作风格。在本文中，我们提出了试错解释上下文学习（TICL）方法，这是一种无需调优的方法，可以在少于10个用户示例的情况下为文本生成任务个性化语言模型。TICL 通过试错解释过程迭代扩展上下文学习提示，添加由模型生成的负样本和解释，这些负样本和解释提供了对特定用户写作风格的细致指导。TICL 在与 LLM 作为法官的两两比较中，相对于之前的最佳表现达到了 91.5% 以上的胜率，并且在个性化对齐写作电子邮件、文章和新闻文章的任务中超过了竞争性的无需调优基线。语义和定性分析显示，负样本和解释使语言模型能够更有效地学习风格语境，并克服了它们零样本输出中对结构化和形式化短语的偏见。通过在推理过程中提前加载计算资源来创建一个特定于用户的上下文学习提示，而测试时无需额外的生成步骤，TICL 提供了一种新颖且简单的个性化对齐方法。

发布时间: 2/14/2025

查看原文

SkyRover：一种跨领域路径finding模块化模拟器

作者: Wenhui Ma, Wenhao Li, Bo Jin, Changhong Lu, Xiangfeng Wang

arXiv:2502.08969v1 类别: cross 摘要: 无人机(UAV)和自动引导车(AGV)越来越多地在物流、监控、检查等任务中协作。然而，现有的模拟器往往专注于单一领域，限制了跨领域研究。本文介绍了一种名为SkyRover的模块化模拟器，用于无人机-自动引导车多智能体路径规划(MAPF)。SkyRover支持现实的智能体动态、可配置的3D环境以及对外部求解器和学习方法的方便API。通过统一地面和空中操作，它促进了跨领域算法的设计、测试和基准测试。实验结果显示，SkyRover在无人机-自动引导车协调中的高效路径规划和高保真模拟能力。该项目可在https://sites.google.com/view/mapf3d/home获取。

发布时间: 2/14/2025

查看原文

RTBAS: 防护大语言模型代理免受提示注入和隐私泄露攻击

作者: Peter Yong Zhong, Siyuan Chen, Ruiqi Wang, McKenna McCall, Ben L. Titzer, Heather Miller

arXiv:2502.08966v1 类别:交叉领域摘要:工具基代理系统（TBAS）允许语言模型（LMs）利用外部工具进行超出其独立能力的任务，例如搜索网站、预订航班或进行金融交易。然而，这些工具大大增加了提示注入攻击的风险，在这种攻击中，恶意内容劫持语言模型代理以泄露机密数据或触发有害行为。现有的防御措施（如OpenAI的GPTs）要求用户在每次调用工具时进行确认，这给用户带来了沉重的负担。我们引入了稳健的TBAS（RTBAS），它能够自动检测并执行保护完整性和保密性的工具调用，只有在无法保证这些保护措施时才需要用户确认。RTBAS将信息流控制适应TBAS所面临的独特挑战。我们提出了两种新的依赖筛选器，使用LM作为法官和基于注意的显著性，以克服这些挑战。在AgentDojo提示注入基准测试上的实验结果表明，当受到攻击时，RTBAS可以防止所有有针对性的攻击，仅在任务实用性上损失2%，进一步的测试证实了其检测细微和直接隐私泄露以接近理想的性能能力。

发布时间: 2/14/2025

查看原文

生物可实现的脑图变换器

作者: Ciyuan Peng, Yuelong Huang, Qichao Dong, Shuo Yu, Feng Xia, Chengqi Zhang, Yaochu Jin

arXiv:2502.08958v1 交叉公告类型摘要：最先进的脑图分析方法未能充分编码脑图中的小世界结构（伴随着中枢节点和功能模块的存在），因此在一定程度上缺乏生物可行性。这一限制妨碍了它们准确表示大脑的结构性和功能性特性的能力，从而限制了机器学习模型在大脑障碍检测等任务中的有效性。在本文中，我们提出了一种新颖的生物可行脑图变换器（BioBGT），它可以编码脑图中固有的小世界结构。具体而言，我们提出了一种基于网络缠结的节点重要性编码技术，该技术在脑图通信过程中捕捉全局信息传播中的结构性节点重要性，强调脑结构的生物特性。此外，我们引入了一种功能模块意识下的自注意力机制，以在学习表示中保留脑图的功能分离和整合特性。在三个基准数据集上的实验结果表明，BioBGT 比最先进的模型表现更优，增强了各种脑图分析任务中的生物可行脑图表示。

发布时间: 2/14/2025

查看原文

LLM肩膀上的 stochastic parrot: 关于物理概念理解的总结性评估

作者: Mo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou

arXiv:2502.08946v1 Announce Type: cross 摘要：以系统的方式，我们探讨了一个普遍关注的问题：大型语言模型（LLMs）是否真正理解它们所说的内容？这与一个更为熟悉的术语“随机鹦鹉”相关。为此，我们提出了一项综合评估，通过一项精心设计的物理概念理解任务PhysiCo来实现。该任务通过使用网格格式的输入来抽象描述物理现象，从而缓解了记忆问题。网格代表了从核心现象到应用示例再到网格世界中其他抽象模式的各种理解水平。对我们的任务进行全面研究表明：（1）最新的大型语言模型，包括GPT-4o、o1和Gemini 2.0表现出“灵光一闪”的现象，但在人类面前落后约40%；（2）大型语言模型中存在“随机鹦鹉”现象，它们在我们的网格任务中表现不佳，但在自然语言中却能够很好地描述和识别这些概念；（3）我们的任务由于内在的困难而非不熟悉的网格格式对大型语言模型构成了挑战，在同一格式的数据中进行上下文学习和微调并没有显著提高它们的性能。

发布时间: 2/14/2025

查看原文

超越单一模型：多代模型在有效基准评估与分析中的本质作用

作者: Wenbo Zhang, Hengrui Cai, Wenyu Chen

arXiv:2502.08943v1 类别: cross 摘要: 大型语言模型（LLMs）在实际应用中表现出显著的实用性，展现出令人印象深刻的自然语言处理和理解能力。基准评估对于评估LLMs的能力至关重要，因为它们可以提供对其优点和不足的全面评估。然而，当前的评估方法往往通过使用确定性的生成策略或依赖单一的随机样本而忽视了LLMs固有的随机性，导致未考虑的采样偏差和不可靠的基准得分估计。在本文中，我们提出了一种分层统计模型，通过结合基准特性和LLMs的随机性来提供基准测试过程更为全面的表示。我们表明，利用多个生成可以提高基准得分估计的准确性并减少方差。我们还引入了基于正确率的提示级别难度评分 $\mathbb P\left(\text{correct}\right)$，提供对个别提示的细粒度见解。此外，我们创建了一个数据地图，可视化了难度和语义提示，有助于基准构建中的错误检测和质量控制。

发布时间: 2/14/2025

查看原文

时间之流中的语言：交织成统一时间叙事的时间序列配对文本

作者: Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He

arXiv:2502.08942v1 交叉公告类型：cross 摘要：尽管许多时间序列模型的进步专注于数值数据，但对于涉及上下文文本信息的多模态时间序列的研究，特别是这些信息在现实场景中常见的情形，仍处于起步阶段。因此，有效地整合文本模态仍然具有挑战性。在这项工作中，我们强调了一个直觉但重要的观察，这一观察已被现有工作忽视：时间序列配对文本表现出与原始时间序列高度相似的周期性质。基于这一见解，我们提出了一种新颖的框架，文本作为时间序列（TaTS），将时间序列配对文本视为时间序列的辅助变量。TaTS 可以无缝集成到任何现有的仅数值时间序列模型中，使其能够有效地处理带有配对文本的时间序列数据。通过在各种基准数据集上的多模态时间序列预测和插值任务中与现有时间序列模型进行广泛的实验，我们证明了TaTS可以提高预测性能并在不修改模型架构的情况下实现超越。

发布时间: 2/14/2025

查看原文