arXiv 论文列表

作者: Yuanhang Yang, Chaozheng Wang, Jing Li

arXiv:2505.07260v1 公告类型: 交叉摘要: 稀疏混合专家（MoE）架构已 emerges 作为一种扩展 Transformer 模型的有前途的方法。虽然早期的工作主要将 MoE 集成到前馈网络（FFN）层中，但最近的研究已探索将 MoE 观念扩展到注意力层，以提高模型性能。然而，现有的基于注意力的 MoE 层需要专门的实现，并且与基于 FFN 的对应层相比，其表现出次优性能。在本文中，我们提出了一个新方法来统一注意力层和 FFN 层中的 MoE 设计，通过引入注意力机制的新形式化，揭示了注意力模块中内在的类似 FFN 的结构。我们提出的 UMoE 架构通过基于注意力的 MoE 层实现了优越的性能，同时允许 FFN 和注意力组件之间的高效参数共享。

发布时间: 5/13/2025

查看原文

无需查询，无需访问

作者: Wenqiang Wang, Siyuan Liang, Yangshijie Zhang, Xiaojun Jia, Hao Lin, Xiaochun Cao

arXiv:2505.07258v1 通告类型: 交叉摘要：文本对抗攻击通过微妙地修改文本来误导NLP模型，包括大型语言模型（LLMs）。虽然有效，但现有的攻击方法往往需要知道受害模型的知识、进行大量查询或访问训练数据，这限制了其实用性。为了克服这些限制，我们引入了**基于受害数据的对抗攻击（VDBA）**，它仅使用受害文本进行操作。为了防止访问受害模型，我们使用公开获取的预训练模型和聚类方法构建了一个影子数据集，作为开发替代模型的基础。为了解决由于信息反馈不足而导致的低攻击成功率（ASR），我们提出了层次替代模型设计，生成替代模型以缓解单个替代模型在决策边界上的失败。同时，我们使用多样化的对抗样本生成，采用多种攻击方法生成和选择具有更好相似性和攻击效果的对抗样本。在情感识别和SST5数据集上的实验表明，VDBA 在ASR方面优于最先进的方法，提高了52.08%的同时显著减少了攻击查询次数到0。更重要的是，我们发现VDBA 对Qwen2和GPT家族等大型语言模型构成了重大威胁，并且甚至在没有访问API的情况下仍能实现最高的45.99%的ASR，证实了先进的NLP模型仍然面临严重的安全风险。我们的代码可以在https://anonymous.4open.science/r/VDBA-Victim-Data-based-Adversarial-Attack-36EC/找到。

发布时间: 5/13/2025

查看原文

不完全上下文学习

作者: Wenqiang Wang, Yangshijie Zhang

arXiv:2505.07251v1 公告类型: cross 摘要: 大型视觉语言模型（LVLMs）通过视觉上下文学习（VICL）实现了显著的性能，这一过程高度依赖于从大量标注示例集合（检索数据库）中检索到的演示。现有研究通常假设检索数据库包含所有标签的标注示例。然而，在现实场景中，数据库更新的延迟或数据标注不完整可能导致检索数据库仅包含部分类别的标注样本。我们称这种现象为“不完整检索数据库”（incomplete retrieval database），并定义在这种条件下进行的上下文学习为“不完备上下文学习（IICL）”。为了解决这一挑战，我们提出了“迭代判断和集成预测（IJIP）”这一两阶段框架，旨在缓解IICL的局限性。迭代判断阶段将m类分类问题重新表述为一系列m个二分类任务，有效地将IICL情境转换为标准的VICL情境。集成预测阶段进一步通过利用输入图像以及迭代判断阶段的预测结果来优化分类过程，从而提高整体分类准确性。IJIP在两种LVLM和两种数据集下的三种不同标签不完整条件下均表现出显著的性能，取得了最高的准确率为93.9%。值得注意的是，即使在标签完全可用的情况下，IJIP仍然比所有六种基线方法表现最佳。此外，IJIP可以直接应用于“提示学习”（Prompt Learning），并适用于“文本领域”（text domain）。

发布时间: 5/13/2025

查看原文

SAS-Bench：评估大型语言模型短答评分性能的细粒度基准

作者: Peichao Lai, Kexuan Zhang, Yi Lin, Linyihan Zhang, Feiyang Ye, Jinhao Yan, Yanwei Xu, Conghui He, Yilei Wang, Wentao Zhang, Bin Cui

arXiv:2505.07247v1 交叉类型: cross 摘要: 主观答案评分（SAG）在教育、标准化测试和自动化评估系统中起着至关重要的作用，特别是在简答题评分（SAS）中评估简短形式的回答。然而，现有的方法往往产生粗粒度的评分，并缺乏详细的理由。尽管大型语言模型（LLMs）已经展示了作为零样本评估者的潜力，它们仍然容易受到偏见的影响，与人工评判的一致性较差，并且评分决策的透明度有限。为了克服这些限制，我们引入了SAS-Bench，这是一个专门为基于LLM的SAS任务设计的基准。SAS-Bench提供了细粒度的、逐步的评分，专家注释的错误类别，以及来自实际主题特定考试的多样化问题类型。这个基准有助于详细评估模型的推理过程和可解释性。我们还发布了一个开源数据集，包含1,030个问题和4,109个学生回答，每个问题和回答都由领域专家进行了标注。此外，我们进行了广泛的实验，使用了多种LLM，指出了评分科学相关问题的主要挑战，并突显了少量示例提示在提高评分准确性方面的有效性。我们的工作为开发更坚固、更公平且教育上有意义的基于LLM的评估系统提供了宝贵的见解。

发布时间: 5/13/2025

查看原文

REMEDI: 相对特征增强的元学习与蒸馏方法用于不平衡预测

作者: Fei Liu, Huanhuan Ren, Yu Guan, Xiuxu Wang, Wang Lv, Zhiqiang Hu, Yaxi Chen

arXiv:2505.07245v1 交叉公告类型：跨领域摘要：预测现有车主未来的车辆购买行为是一个关键性的挑战，由于极不平衡的类别分布（正面率低于0.5%）和复杂的消费行为模式。我们提出了REMEDI（相对特征增强元学习与蒸馏不平衡预测），这是一种解决这些问题的新颖多阶段框架。REMEDI首先训练多样的基础模型，以捕捉用户行为的不同方面。其次，受到比较优化技术的启发，我们引入了相对性能元特征（相对于集合平均值的偏差，相对于同侪的排名）来通过混合专家架构有效地进行模型融合。第三，我们通过使用均方误差损失进行有监督的微调，将集成的知识精简到一个高效的模型中，从而实现实际部署。在大约800,000名车辆车主的评估中，REMEDI显著优于基准方法，在推荐前60,000名中识别出约50%的实际买家，精度约为10%。精简后的模型保留了集成的预测能力，同时保持了部署效率，展示了REMEDI在工业环境中的不平衡预测的有效性。

发布时间: 5/13/2025

查看原文

彗星：通过预测激活稀疏性加速大型语言模型的私有推理

作者: Guang Yan, Yuhui Zhang, Zimu Guo, Lutan Zhao, Xiaojun Chen, Chen Wang, Wenhao Wang, Dan Meng, Rui Hou

arXiv:2505.07239v1 安全计算类型: 横跨计算摘要：随着在云平台上传主机大规模语言模型（LLMs）以提供推理服务，关于潜在敏感信息泄露的隐私担忧正在加剧。安全多方计算（MPC）是一种保护LLM推理隐私的有前途的解决方案。然而，MPC需要频繁的服务器间通信，导致高性能开销。受大规模语言模型中普遍存在的激活稀疏性启发，在非线性激活函数之后大多数神经元未被激活，我们提出了一种高效的私有推理系统Comet。该系统采用了一个准确且快速的预测器来预测激活函数输出的稀疏分布。此外，我们引入了一种新的私有推理协议，通过利用预测稀疏分布的空间局部性，高效且安全地避免涉及零值的计算。尽管这种计算避免方法影响了KV缓存条目的时空连续性，我们通过一种低通信开销的缓存补充策略来应对这一挑战，该策略合并了未命中请求并引入了预取机制。最后，我们在四种常见的LLM上评估了Comet，并将其与六种最先进的私有推理系统进行了比较。Comet实现了1.87倍至2.63倍的加速，以及1.94倍至2.64倍的通信减少。

发布时间: 5/13/2025

查看原文

UAV-CodeAgents：通过多智能体ReAct和视知觉推理实现可扩展的无人机任务规划

作者: Oleg Sautenkov, Yasheerah Yaqoot, Muhammad Ahsan Mustafa, Faryal Batool, Jeffrin Sam, Artem Lykov, Chih-Yung Wen, Dzmitry Tsetserukou

arXiv:2505.07236v1 平台类型:交叉摘要:我们提出了一种基于大规模语言和语言-视觉模型 (LLMs/VLMs) 的可扩展多代理框架 UAV-CodeAgents，用于自主无人机任务生成。该系统利用 ReAct（推理 + 行动）范式来解释卫星图像、地面高层次自然语言指令，并与最少的人类监督协作生成无人机轨迹。核心组件是一个基于视觉的像素指针机制，使其能够在航空图上精确定位语义目标。为了支持实时适应性，我们引入了一个反应性思考循环，允许代理们迭代反思观察，修订任务目标，并在不断变化的环境中动态协调。 UAV-CodeAgents 在涉及工业和环境火灾检测的大规模任务场景中进行了评估。我们的结果表明，较低的解码温度（0.5）能提供更高的规划可靠性并减少执行时间，平均任务生成时间为96.96秒，成功率93%。我们进一步在9,000张注释过的卫星图像上对Qwen2.5VL-7B进行了微调，实现了跨多种视觉类别的强大空间定位能力。为了促进可再现性和未来研究，我们将发布完整的代码库和一个用于基于语言-视觉的无人机规划的新型基准数据集。

发布时间: 5/13/2025

查看原文

DynamicRAG：将大型语言模型的输出作为反馈用于检索增强生成的动态重排名

作者: Jiashuo Sun, Xianrui Zhong, Sizhe Zhou, Jiawei Han

arXiv:2505.07233v1 类别: cross 摘要: 检索增强生成（RAG）系统将大型语言模型（LLMs）与外部知识检索相结合，使它们在知识密集型任务中非常有效。这些系统中的一个关键但经常被忽视的组件是重排序器，它通过细化检索到的文档来提高生成质量和可解释性。选择最佳文档数量（k）的问题仍然没有解决：文档数量太少可能会忽略关键信息，而太多则会引入噪声和不效率。尽管近期的研究已经探索了基于LLM的重排序器，但它们主要依赖于模型内部的知识，并且忽略了LLM可以提供的丰富的监督信号，例如将响应质量作为优化重排序决策的反馈。在本文中，我们提出了一种名为DynamicRAG的新型RAG框架，其中重排序器根据查询动态调整检索到的文档的顺序和数量。我们将重排序器建模为一个通过强化学习（RL）优化的代理，并使用来自LLM输出质量的奖励。在七个知识密集型数据集上，DynamicRAG展示了卓越的性能，达到最先进的结果。该模型、数据和代码可从https://github.com/GasolSun36/DynamicRAG获取。

发布时间: 5/13/2025

查看原文

面向用户的中心化交互医学图像分割在VR中的辅助AI代理技术

作者: Pascal Spiegler, Arash Harirpoush, Yiming Xiao

arXiv:2505.07214v1 宣布类型: cross 摘要: 在疾病分析和手术计划中，手动分割体部医学成像（例如MRI、CT）是劳动密集型、容易出错且难以掌握的工作，而完全自动化的算法可以从用户反馈中获益。因此，结合最新放射学AI基础模型和虚拟现实（VR）直观的数据交互能力，我们提出了SAMIRA，这是一种新型对话AI代理，可以协助用户在VR中定位、分割和可视化三维医学概念。通过基于语音的交互，该代理帮助用户理解放射学特征，定位临床目标，并生成可以通过少量点击提示进行细化的分割掩码。该系统还支持精确比例的三维可视化分割病理，以增强患者特定的解剖学理解。此外，为了在沉浸式、以人为中心的工作流程中确定在近距离-远距离注意力切换下细化分割掩码的最佳交互模式，我们比较了VR控制器指示、头部指示和眼动追踪作为输入模式。通过用户研究，评估结果显示了高可用性评分（SUS=90.0 ± 9.0）、较低的整体任务负载，以及为所提出的VR系统提供的指导、培训潜力和AI在放射学分割任务中的整合提供了强有力的支持。

发布时间: 5/13/2025

查看原文

代理互联网：基础、应用与挑战

作者: Yuntao Wang, Shaolong Guo, Yanghe Pan, Zhou Su, Fahao Chen, Tom H. Luan, Peng Li, Jiawen Kang, Dusit Niyato

arXiv:2505.07176v1 Announce Type: cross 摘要：随着大型语言模型和视觉语言模型的迅速普及，AI代理已经从孤立的任务特定系统演变成能够在没有人类干预的情况下感知、推理和行动的自主互动实体。随着这些代理在虚拟和物理环境中广泛普及，从虚拟助手到具身机器人，构建统一的以代理为中心的基础结构变得尤为重要。在本文综述中，我们介绍互联网代理（IoA）作为一种基础架构，该架构使大规模异构代理之间无缝连接、动态发现和协作编排成为可能。首先，我们介绍了一般IoA架构，突出了其分层组织、相对于传统互联网的特征以及新兴应用。接下来，我们分析了IoA的关键操作使能器，包括能力通知和发现、自适应通信协议、动态任务匹配、一致性及冲突解决机制，以及激励模型。最后，我们确定了构建稳健且可信赖的IoA生态系统的开放研究方向。

发布时间: 5/13/2025

查看原文