arXiv 论文列表

作者: Jonathan Clifford Balloch

arXiv:2505.10330v1 宣告类型: cross 摘要: 从机器人到推荐引擎等现实世界中的自主决策系统必须在随时间变化的环境中运行。虽然深度强化学习(RL)在学习稳定环境中的最优策略方面表现出了令人印象深刻的 ability，但大多数方法都是数据密集型的，并假设在训练和测试时间之间不会发生变化的世界。因此，传统的 RL 方法在遇到条件变化时难以适应。这提出了一个基础性的挑战：如何让 RL 剂在部署过程中遇到新的环境变化时高效地适应其行为，同时不灾难性地忘记有用的先验知识？本文证明了高效的在线适应需要两种关键能力：(1) 优先探索和抽样策略，有助于识别和学习相关经验，以及 (2) 通过结构化表示有选择地保存先验知识，这些表示可以在不中断可重用组件更新的情况下进行更新。

发布时间: 5/16/2025

查看原文

AutoPentest：借助自主LLM代理提升漏洞管理

作者: Julius Henke

arXiv:2505.10321v1 通知类型: 横向渗透测试摘要: 最近的研究热点之一是在渗透测试中使用大语言模型（LLMs），这有望降低成本并因此增加测试频率。我们对相关工作进行了审查，明确了最佳实践和常见的评估问题。然后，我们引入了AutoPentest，这是一个基于高自主性的应用程序，用于执行黑盒渗透测试。AutoPentest基于OpenAI的GPT-4o大语言模型和LangChain大语言模型代理框架，能够执行复杂的多步骤任务，并可辅以外部工具和知识库。我们对三个夺旗风格的Hack The Box（HTB）机器进行了研究，将我们的实现AutoPentest与手动使用ChatGPT-4o用户界面的基本方法进行了比较。两种方法都能完成HTB机器上15-25%的子任务，与ChatGPT相比，AutoPentest略占优势。在所有实验中使用AutoPentest的总成本为96.20美元，而一个月的ChatGPT Plus订阅费用为20美元。结果显示，进一步的实现努力以及未来更强大的LLM的使用，有望使这一方法成为漏洞管理的一部分。

发布时间: 5/16/2025

查看原文

通过强化学习激励LLM作为法官进行思考

作者: Chenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha

arXiv:2505.10320v1 评估类型:横跨摘要:AI的进步受评估质量的限制，而强大的LLM-as-a-Judge模型已被证明是核心解决方案。通过更强的逻辑推理能力增强判断能力，这激发了寻找训练这类模型进行思考的最佳方法的需求。在这项工作中，我们介绍了J1，这是一种强化学习方法来训练这样的模型。我们的方法将可验证的和不可验证的提示转换为具有可验证奖励的判断任务，这些奖励激励思考并减轻判断偏见。特别地，当以这些规模进行训练时，我们的方法优于所有其他现有的8B或70B模型，包括从DeepSeek-R1蒸馏而来的模型。J1在某些基准测试中也优于o1-mini，甚至优于R1，尽管训练了一个更小的模型。我们提供了Pairwise-J1与Pointwise-J1模型、离线与在线训练方法、奖励策略、种子提示以及思考长度和内容变化的比较分析。我们发现，我们的模型通过学会概述评估标准、将模型响应与自动生成的参考答案进行比较以及重新评估模型响应的正确性，从而做出更好的判断。

发布时间: 5/16/2025

查看原文

MLaaS中的私有变压器推理：一项综述

作者: Yang Li, Xinyu Zhou, Yitong Wang, Liangxin Qian, Jun Zhao

arXiv:2505.10315v1 宣讲类型: cross 摘要: 变量模型已经彻底改变了人工智能，推动了内容生成和情感分析等应用的发展。然而，它们在机器学习即服务（MLaaS）中的部署引发了重大的隐私担忧，主要原因是集中处理敏感用户数据。私有变量推断（PTI）通过使用安全多方计算和同态加密等加密技术提供了解决方案，能够在保护用户数据和模型隐私的同时进行推理。本文回顾了PTI的最新进展，强调了最先进的解决方案和挑战。此外，我们还引入了一个结构化的分类体系和评估框架，旨在平衡资源效率与隐私之间的关系，并弥合高性能推理与数据隐私之间的差距。

发布时间: 5/16/2025

查看原文

AI LEGO：在早期设计阶段支撑跨功能负责任AI实践的合作框架

作者: Muzhe Wu, Yanzhi Zhao, Shuyi Han, Michael Xieyang Liu, Hong Shen

arXiv:2505.10300v1 类别: cross 摘要: 负责任的人工智能（RAI）努力越来越强调通过社会和技术的视角在人工智能开发生命周期早期阶段及早解决潜在危害的重要性。然而，在跨职能的行业团队中，这项工作往往因持续的知识传递挑战而受阻：技术专家很难将早期技术设计的高阶理由传递给非技术或用户面向的角色，以便进行伦理评估和危害识别。通过文献回顾和与8位从业者共同设计的研究所揭示，这一挑战是如何表现出来的——技术设计选择很少以支持非技术角色有意义参与的方式传递；协作工作流程缺乏支持相互理解的共同可视结构；非技术从业者在系统性地评估危害方面没有支撑。现有的工具如JIRA或Google Docs虽然对产品跟踪有用，但对于支持跨角色的联合危害识别却不太适合，通常需要大量额外的努力来使各方理解一致。为了解决这一问题，我们开发了AI LEGO，这是一种基于网页的原型，它支持跨职能人工智能从业者在早期设计阶段有效地促进知识传递和识别有害设计选择。技术角色使用交互式模块起草开发计划，而非技术角色则通过阶段特定的检查表和LLM驱动的人物模拟来与这些模块互动，以揭示潜在的危害。在一项涉及18名跨职能从业者的研究中，AI LEGO在识别的伤害数量和概率方面优于基线工作表。参与者发现其模块化结构和个人角色提示使危害识别变得更加容易，促进了早期设计阶段更清晰和更具协作性的RAI实践。

发布时间: 5/16/2025

查看原文

防御边缘设备：代表性注意机制以减轻联邦学习中的后门攻击

作者: Chibueze Peace Obioma, Youcheng Sun, Mustafa A. Mustafa

arXiv:2505.10297v1 宣传类型: cross 摘要: 联邦学习(FL)通过在边缘设备上支持分布式模型训练，增强了隐私并减少了资源受限的边缘客户端的通信成本。然而，这类设备的异质性产生了多样化的、非独立且同分布的（non-IID）数据，使得后门攻击的检测更具挑战性。在本文中，我们提出了一种新的联邦代表性注意力防御机制，名为FeRA，它利用跨客户端的内部特征表示之间的注意力来区分良性客户端和恶意客户端。FeRA基于表示重构误差计算异常分数，有效识别出其内部激活与团队共识显著偏离的客户端。我们的评估表明，FeRA在各种FL场景中表现出色，包括边缘设备典型的挑战性non-IID数据分布。实验结果表明，它能够在降低后门攻击成功率的同时，维持主要任务的高准确率。该方法是对模型无依赖的、对攻击无依赖的，并且不需要标引的参考数据，使其非常适合异构和资源有限的边缘部署。

发布时间: 5/16/2025

查看原文

AttentionGuard：基于Transformer的误行为检测以保障车辆编队安全

作者: Hexu Li, Konstantinos Kalogiannis, Ahmed Mohamed Hussain, Panos Papadimitratos

arXiv:2505.10273v1 交叉公告类型摘要：车辆编队通过车辆到一切（V2X）通信协调多辆车在紧密 formations 行驶，提供了燃油效率和道路利用率方面的重大好处。然而，这种系统容易受到经过身份验证的内鬼发起的复杂伪造攻击的影响，这些攻击可以破坏车队的稳定性和可能导致灾难性的碰撞。本文解决了这一挑战：车辆编队系统的异常行为检测。我们提出了基于注意力机制的AttentionGuard框架，利用自注意力机制识别移动数据中的异常模式。我们的提案采用多头变压器编码器处理顺序动力学信息，能够在各种编队场景（包括稳态操作、加入和退出机动）中有效地区分正常动力学模式和伪造攻击。我们的评估使用了一个包含各种攻击向量（恒定、渐进和组合伪造）和运行参数（控制器类型、车辆速度和攻击者位置）的广泛仿真数据集。实验结果表明，AttentionGuard在攻击检测中的F1分数可达到0.95，即使在复杂机动期间保持稳定性能。值得注意的是，我们的系统能够实现极低的延迟操作（100毫秒决策间隔），使其适用于实时交通安全应用。比较分析表明其具有出色的检测能力，并确定变压器编码器是一种有潜力的方法，用于保护合作智能交通系统（C-ITS）免受复杂的内鬼威胁。

发布时间: 5/16/2025

查看原文

切割隐私：联邦学习中基于超平面的数据重建攻击

作者: Francesco Diana, Andr\'e Nusser, Chuan Xu, Giovanni Neglia

arXiv:2505.10264v1 类型: cross 摘要: 联邦学习 (FL) 允许跨分布式客户端进行机器学习模型的协作训练，而不共享原始数据，理论上保护了数据隐私。然而，最近的研究揭示了 FL 中的关键漏洞，表明恶意中央服务器可以操纵模型更新以重构客户端的私有训练数据。现有的数据重建攻击存在重要限制：它们往往依赖于对客户端数据分布的假设，或者当批量大小超过几十个样本时，其效率显著下降。在此工作中，我们提出了一种新的数据重建攻击，克服了这些限制。我们的方法利用了全新几何视角下的全连接层来设计恶意模型参数，能够在分类任务中无需任何关于客户端数据的知识，完美地重构任意大小的数据批量。通过对图像和表格数据集的大量实验，我们证明了我们的攻击在性能上优于现有方法，并能够实现比现有最佳方法大两个数量级的数据批量的完美重建。

发布时间: 5/16/2025

查看原文

生成型大型语言模型与传统自然语言处理在医学领域的演变景观

作者: Rui Yang, Huitao Li, Matthew Yu Heng Wong, Yuhe Ke, Xin Li, Kunyu Yu, Jingchi Liao, Jonathan Chong Kai Liew, Sabarinath Vinod Nair, Jasmine Chiat Ling Ong, Irene Li, Douglas Teodoro, Chuan Hong, Daniel Shu Wei Ting, Nan Liu

arXiv:2505.10261v1 类型: cross 摘要：自然语言处理（NLP）传统上应用于医学领域，生成型大规模语言模型（LLMs）最近变得非常重要。然而，它们在不同医学任务中的差异仍鲜有探索。我们分析了19,123项研究，发现生成型LLMs在开放性任务中表现出优势，而传统NLP在信息提取和分析任务中占据主导地位。随着这些技术的发展，确保它们在医学应用中的潜在价值需要对其伦理使用进行重视。

发布时间: 5/16/2025

查看原文

比较大型语言模型的文本标注能力：社会媒体数据中人权侵犯行为标注研究

作者: Poli Apollinaire Nemkova, Solomon Ubani, Mark V. Albert

arXiv:2505.10260v1 交叉公告类型：cross 摘要：在自然语言处理（NLP）系统日益 sophisticated 的时代，大规模语言模型（LLMs）在各类应用中展现出了惊人的潜力，包括那些需要细致文本理解和上下文推理的任务。本研究探讨了 GPT-3.5、GPT-4、LLAMA3、Mistral 7B 和 Claude-2 等多个最先进的 LLMs 在繁复文本数据集中的零样本和少样本标注能力，该数据集包含俄语和乌克兰语的社会媒体帖子。具体而言，本研究的重点是在数据集中识别人权侵犯的二元分类任务。为了评估这些模型的有效性，它们的标注与 1000 个样本的人类双标注标准集进行了对比分析。分析包括在不同提示条件下评估标注性能，提示有提供英文和俄文两种版本。此外，研究还探讨了每种模型在错误模式和分歧方面展现的差异化特点，这为了解它们的优势、限制及其跨语言适应性提供了见解。通过将LLM输出与人类标注进行对比，本研究有助于理解在多语言环境中，LLMs在敏感、特定领域任务中的可靠性和适用性。它还揭示了语言模型在处理本质上主观且依赖于上下文的判断方面的方式，这是其在现实世界场景中部署时需要考虑的关键因素。

发布时间: 5/16/2025

查看原文