arXiv:2505.00976v1 类型: cross
摘要:大规模语言模型(LLMs)已成为众多自然语言处理任务的中心,但它们的漏洞带来了重大的安全和伦理挑战。这一系统性综述探讨了LLMs攻击和防御技术的发展现状。我们将攻击分类为对抗性提示攻击、优化攻击、模型盗窃以及对LLM应用的攻击,详细描述了它们的机制和影响。随后,我们分析了防御策略,包括预防性和检测性的防御方法。尽管取得了一定进展,但仍面临适应动态威胁环境、平衡易用性和鲁棒性以及在防御实施中应对资源限制的挑战。我们指出了开放性问题,包括需要适应性可扩展的防御、可解释的安全技术以及标准化的评估框架。本综述提供了关于开发安全和健壮的LLMs的可操作见解和方向,强调跨学科合作和伦理考量在实际应用中减少风险的重要性。
arXiv:2505.00968v1 类别:交叉学科
摘要:树切片方法 recently emerged 作为传统切片 Wasserstein (SW) 距离的替代品,用基于树的度量空间替代了一维线条,并引入分裂机制对测度进行投影。这种方法增强了在切片最优传输中捕获积分域拓扑结构的能力,同时保持了较低的计算成本。在这一基础上,我们提出了一种新的非线性投影框架,用于树切片 Wasserstein (TSW) 距离,用通用投影取代了早期版本中的线性投影,同时确保关联的拉东变换的单射性,并保持结果度量的正确定义。通过设计适当的投影,我们为欧几里得空间和球体上的测度构建了高效的度量。最后,我们通过广泛的数值实验验证了我们提出的度量,这些实验包括欧几里得和球体数据集。应用包括梯度流、自监督学习和生成模型,其中我们的方法在最近的 SW 和 TSW 变体中表现出显著的改进。
arXiv:2505.00949v1 宣告类型: cross
摘要: 我们介绍了Llama-Nemotron系列模型,这是一个具有异构推理能力的开放模型家族,能够提供卓越的推理能力、推断效率,并且拥有适用于企业使用的开放许可。该家族包含三种规模的模型——Nano(8B)、Super(49B)和Ultra(253B),并在推理性能和内存效率方面优于当前最先进的推理模型DeepSeek-R1,同时还能提供竞争力的表现。在本报告中,我们讨论了这些模型的训练方法,这涉及从Llama 3模型使用神经架构搜索以加速推理、进行知识蒸馏以及继续预训练,随后是一个以推理为中心的后训练阶段,包含两个主要部分:监督微调和大规模强化学习。Llama-Nemotron模型是首次支持动态推理切换的开源模型,在推断过程中允许用户在标准聊天模式和推理模式之间切换。为支持开放研究并促进模型开发,我们提供了以下资源:1. 我们在具有商业宽容性的NVIDIA Open Model License Agreement下发布了Llama-Nemotron推理模型——LN-Nano、LN-Super和LN-Ultra。2. 我们发布了完整的后训练数据集:Llama-Nemotron-Post-Training-Dataset。3. 我们还发布了我们的训练代码库:NeMo、NeMo-Aligner和Megatron-LM。
arXiv:2505.00938v1 Announce Type: cross
摘要:跨域少量样本目标检测(CD-FSOD)旨在在有限的类别实例的情况下,在不同的领域检测新型目标。特征混淆,包括目标-背景混淆和目标-目标混淆,在跨域和少量样本设置中都提出了显著的挑战。在这项工作中,我们引入了CDFormer,这是一种针对特征混淆的跨域少量样本目标检测变换器,以解决这些挑战。该方法通过两个关键模块具体解决了特征混淆:目标-背景区分(OBD)和目标-目标区分(OOD)。OBD模块利用可学习的背景标记来区分目标和背景,而OOD模块增强了不同类别目标之间的区分能力。实验结果表明,CDFormer在微调后分别在1/5/10 shot设置中比以前的最先进方法提高了12.9%、11.0%和10.4%的mAP。
arXiv:2505.00935v1 类别:交叉
摘要:计算能力的增加和深度学习革命使得在人工智能研究中探索新的话题和前沿成为可能。一种名为具身人工智能的新领域,它将计算机视觉、机器人学和决策制定相交,近年来逐渐变得重要,因为它旨在促进智能自主机器人的开发,并将其部署到社会中。近年来,大规模的3D模型集合的可用性使得在固定帧数下快速且安全地训练基于学习的代理,并在将其部署到真实的机器人平台上之前仔细评估它们的行为成为可能。这些智能代理旨在在一个可能未知的环境中执行特定任务。为此,在模拟训练期间,代理学会进行连续与周围环境的互动,如从环境中收集信息、编码和提取有助于任务的有用线索,并朝着最终目标执行动作;其中代理的每一步行动都会影响这些互动。本论文遵循了从概念到实现再到部署的具身代理在室内环境中的完整创作过程。我们旨在为具身人工智能和自主代理领域的研究做出贡献,以促进该领域未来的工作。我们详细分析了实施智能具身代理背后的过程,理解了当前文献的详细状态,解释了所提方法的技术细节,并对相关机器人任务进行了精确的实验研究。
arXiv:2505.00932v1 交叉发布类型:cross
摘要:自行车共享系统(BSS)的快速扩张极大地改善了城市的“最后一公里”连接性,但大规模部署面临着日益严峻的操作挑战,特别是在检测故障自行车方面。现有的检测方法要么依赖于静态模型基础上的阈值,忽视了动态时空(ST)使用模式,要么采用监督学习方法,难以应对标签稀缺和类别不平衡的问题。为了解决这些问题,本文提出了一种新的自监督变换器(SSTransformer)框架,利用从GPS轨迹和骑行记录中提取的ST特征自动检测无法使用的共享自行车。该模型采用自监督预训练策略以增强其特征提取能力,随后进行微调以高效地识别自行车状态。在预训练阶段,变换器编码器通过自监督目标学习自行车运动的一般表示;在微调阶段,编码器适应下游二分类任务。在包含来自中国成都的10,730辆自行车(1,870辆无法使用,8,860辆正常)的真实世界数据集上进行的全面实验表明,SSTransformer在传统机器学习、集成学习和深度学习基线下显著优于传统方法,实现了最佳准确率(97.81%)、精确率(0.8889)和F1分数(0.9358)。该工作突显了自监督变换器在ST数据中用于捕捉BSS中复杂异常的有效性,为共享出行的更可靠和可扩展维护解决方案铺平了道路。
arXiv:2505.00931v1 Announce Type: 剪裁
摘要:本研究探讨了大型语言模型(LLMs)在扩展动态评估(DA)方面的能力。为了促进这一探讨,我们首先开发了DynaWrite——一个模块化的、基于微服务的语法辅导应用,支持多种LLMs生成针对英语学习者的动态反馈。初步测试了21个LLMs后,发现GPT-4o和神经聊天具有最大的潜力,可以扩展对语言学习课堂中的动态评估。进一步测试这两位候选人发现,这两种模型在识别用户句子中的语法错误方面表现相似。然而,GPT-4o在生成高质量的动态评估方面表现出色,因为它可以生成清晰、一致且逐步明确的提示。通过详细的功能测试还确认了实时响应能力和系统稳定性,GPT-4o表现出足够的速度和稳定性。本研究显示,LLMs可以用来扩展动态评估,从而使得动态评估可以在传统教师-学生设置中无法实现的更大群体中得以提供。
arXiv:2505.00918v1 Announce Type: cross
摘要:近几十年来,由于物联网设备在智能健康监测系统、智能城市和环境监测等方面具有广泛的应用,物联网设备的数量迅速增加。在物联网网络中,一个至关重要的任务是在网络上进行感知并传输信息。物联网节点通过感知环境收集数据,然后通过多跳通信将这些数据传输到目的地节点,遵循一些路由协议。这些协议通常被设计用来优化可能相互矛盾的目标,例如最大化分组投递比和能效。虽然大多数文献都集中在优化一个静态目标,这个目标不会改变,但许多实际的物联网应用需要适应快速变化的优先级。例如,在监测系统中,一些传输是时间敏感的,需要在低延迟上获得高优先级,而其他传输则不那么急迫,反而更注重能效。为了满足这些动态需求,我们提出了基于多目标Q学习的新型动态和分布式路由方法,可以实时适应优先级的变化。我们的算法结合了多目标优化和Q学习的理念。我们还提出了一种新颖的贪婪内插策略方案,用于对意外的变化优先级做出近乎最优的决策。提出的方案可以逼近并利用动态优先级下的帕累托有效解,因此可以利用过去的知识快速适应运行时不可预测的优先级变化。仿真结果表明,对于各种探索策略、偏好变化模式以及诸如总体奖励、能效和分组投递比等重要指标,所提出的方案优于当前最先进的算法。
arXiv:2505.00917v1 宣告类型:交叉
摘要:在药物发现、精准医疗和大规模语言模型(LLMs)对齐等应用中,从大规模数据集选择高质量候选对象至关重要。虽然一致性选择(CS)提供了严谨的不确定性量化,但其仅适用于单变量响应和标量标准。为解决这一问题,我们提出了一致性多变量选择(mCS),这是CS在多变量响应环境中的扩展。我们的方法引入了区域单调性和使用多变量非一致性得分来构建一致性p值,从而实现有限样本下的假发现率(FDR)控制。我们提出了两种变体:mCS-dist,使用基于距离的得分,以及mCS-learn,通过可微优化来学习最优得分。在模拟和真实数据集上的实验表明,mCS在显著提高选择性能的同时维持了FDR控制,确立了其作为多变量选择任务的稳健框架。
arXiv:2505.00913v1 宣告类型: cross
摘要:在应用领域,离线学习的策略进行微调仍然是一项重大挑战。在微调过程中实现单调性能提升通常也颇具挑战性,因为代理在微调的早期阶段通常会经历性能下降。社区已经识别出在线微调学习网络时遇到的多个困难,然而,大多数进展都集中在提高微调期间的学习效率上。实际上,在微调过程中,这带来了严重的问题:最初,代理的性能随着代理探索和有效地覆盖了离线学习的策略而下降。我们在一系列设置中表明,许多离线到在线的算法在微调过程中要么(1)表现出性能下降,要么(2)学习缓慢(有时实质上没有改进)。我们介绍了一种新的微调算法,该算法基于一种称为Jump Start的算法,它根据在线性能估计逐渐允许更多的探索。实验证明,这种方法实现了快速微调,并且与设计用于实现相同功能的现有算法相比,显著减少了性能下降。