arXiv 论文列表

作者: Apoorva Beedu, Irfan Essa

arXiv:2504.18689v1 交叉公告类型：cross 摘要：视频摘要是一种简短版本（即摘要），它提供了一个视频的快速概览，同时保留了相关的信息。在这项工作中，我们专注于总结教学视频，并提出了一种方法，将视频分解为有意义的段落，每个段落对应视频中的关键步骤。我们提出了一个名为**HierSum**的层次化方法，该方法将字幕中的细粒度局部线索与视频级别指令提供的全局上下文信息结合起来。我们的方法利用“最常重播”的统计信息作为监督信号，以识别关键段落，从而提高摘要的有效性。我们在TVSum、BLiSS、Mr.HiSum和WikiHow测试集等基准数据集上进行了评估，并展示了在F1分数和等级相关性等关键指标上，HierSum始终优于现有方法。我们还利用WikiHow和EHow视频及其包含逐步说明的文章，策划了一个新的多模态数据集。通过广泛的消融研究，我们证明，基于此数据集的训练显著提高了对目标数据集的总结效果。

发布时间: 4/29/2025

查看原文

SORT3D：基于空间对象中心推理的零样本3D语义对应工具箱，使用大型语言模型

作者: Nader Zantout, Haochen Zhang, Pujith Kachana, Jinkai Qiu, Ji Zhang, Wenshan Wang

arXiv:2504.18684v1 类型: cross 摘要：在人类旁边操作的机器人理解和解释指称物体的语言并在三维空间中通过空间关系和属性对物体进行定位是至关重要的。但是，由于场景的多样性、精细物体数量庞大以及语言引用的复杂自由形式，这个任务往往具有挑战性。此外，在三维领域，获取大量的自然语言训练数据是困难的。因此，对于方法来说，在少量数据的情况下进行学习并在新的环境中进行无监督泛化是非常重要的。为了解决这些挑战，我们提出了SORT3D，一种方法，该方法利用了2D数据中的丰富物体属性，并将基于启发式的空间推理工具箱与大型语言模型（LLMs）进行顺序推理的能力结合在一起。重要的是，我们的方法在训练过程中不需要文本到三维数据，并且可以无监督地应用于未见过的环境中。我们展示了SORT3D在两个基准测试上的复杂视点依赖性定位任务中达到了最先进的性能。我们还实现了流水线以实现实时运行在自主车辆上，并表明我们的方法可以用于未见过的实际环境中的物体目标导航。该系统的流水线的所有源代码在https://github.com/nzantout/SORT3D 公开发布。

发布时间: 4/29/2025

查看原文

多模态机器人表示用于时间动作分割

作者: Daniel Sliwowski, Dongheui Lee

arXiv:2504.18662v1 数据类型: cross 摘要: 动作时间分割(TAS)一直以来都是机器人技术和计算机视觉领域的关键研究领域。在机器人技术中，算法主要侧重于利用本体感受信息来确定技能边界，近期的手术机器人研究开始引入视觉信息。相比之下，计算机视觉通常依赖于外部传感器，如摄像头。现有的机器人多模态TAS模型在模型内部实现特征融合，使得难以跨不同模型重用所学的特征。同时，计算机视觉中常用的预训练纯视觉特征提取器在物体可见度有限的情况下表现不佳。为了解决这些挑战，我们提出了一种名为M2R2的多模态特征提取器，它结合了本体感受和外部传感器的信息。我们引入了一种新的预训练策略，使得所学特征能够在多个TAS模型中重用。我们的方法在REASSEMBLE数据集上取得了最先进的性能，该数据集是一个具有挑战性的多模态机器人装配数据集，相对于现有的机器人动作分割模型，性能提高了46.6%。此外，我们还进行了广泛的操作消除研究，以评估不同模态在机器人TAS任务中的贡献。

发布时间: 4/29/2025

查看原文

大规模启动：基于GPU的超级计算机上的高性能集合通信

作者: Siddharth Singh, Mahua Singh, Abhinav Bhatele

arXiv:2504.18658v1 通信类型：交叉摘要：我们评估了基于GPU的超级计算机上大规模语言模型（LLM）训练的当前集体通信状态。现有的库如RCCL和Cray-MPICH在系统如Frontier上表现出关键的局限性——Cray-MPICH未能充分利用网络和计算资源，而RCCL则面临严重的可扩展性问题。为了应对这些挑战，我们引入了PCCL，这是一种专为分布式深度学习工作负载优化的通信库，具有所有聚合和减少散列操作的高性能实现。PCCL旨在最大化利用所有可用的网络和计算资源，并且能够高效地扩展到数千个GPU。它实现了显著的性能改进，在Frontier的2048个GCD上，PCCL在所有聚合操作上的性能比RCCL提高了6-33倍，比Cray-MPICH提高了28-70倍。这些收益直接转化为端到端的性能：在大规模GPT-3风格的训练中，PCCL分别在7B参数模型和13B参数模型上提供了高达60%和40%的性能提升。

发布时间: 4/29/2025

查看原文

基于梯度优化的TSK模糊框架：可解释的网络钓鱼检测

作者: Lohith Srikanth Pentapalli, Jon Salisbury, Josette Riep, Kelly Cohen

arXiv:2504.18636v1 类型: cross 摘要: 钓鱼攻击已成为对个人和组织日益复杂且普遍存在的威胁，导致重大的财务损失、身份盗窃，并对机构声誉造成严重损害。现有的钓鱼检测方法往往难以同时实现高准确性和可解释性，要么无法检测新型攻击，要么作为不透明的黑盒模型运行。为解决这一关键缺口，我们提出了一种基于梯度优化技术优化的一阶Takagi-Sugeno-Kang (TSK)模糊推理模型的新颖钓鱼URL检测系统。我们的方法巧妙地结合了模糊逻辑的可解释性和类人类推理能力，以及梯度优化方法提供的精度和适应性，特别利用Adam优化器进行高效的参数调整。使用包含超过235,000个URL的综合数据集进行的实验表明了快速收敛，出色的预测性能（在5次交叉验证折叠中平均准确率为99.95%，并且完美的AUC值为1.00）。此外，优化的模糊规则和隶属函数提高了互操作性，清楚地表明了模型如何做出决策，这是网络安全应用中的重要特征。这种高性能、透明和可解释的钓鱼检测框架显著推进了当前的网络安全防御，为实践者提供了准确且可解释的决策工具。

发布时间: 4/29/2025

查看原文

个性化量子计算教育的方向：一种进化论 Powered LLM 方法

作者: Iizalaarab Elhaimeur, Nikos Chrisochoides

arXiv:2504.18603v1 通知类型: 交叉摘要：量子计算教育面临着由于其复杂性和现有工具的限制而带来的巨大挑战；本文介绍了一种新颖的智能教学助手，用于量子计算教育，并详细阐述了其进化设计过程。该系统结合了知识图谱增强的架构以及两个专门的大型语言模型（LLM）代理：一个教学代理用于动态交互，一个课程计划代理用于生成课程计划。该系统设计用于适应个别学生的需求，交互过程被仔细跟踪并存储在一个知识图谱中。该图谱表示学生行为、学习资源及其关系，旨在实现有效学习路径的推理。我们描述了系统的实现，突出了遇到的挑战和实施的解决方案，包括引入一个双代理架构，任务被分离并由中央知识图谱协调，这个图谱维护系统的意识；以及一个面向用户的标签系统，旨在减轻LLM幻觉现象并提高用户体验。初步结果表明，该系统能够捕捉丰富的交互数据，通过模拟中标签系统的学生反馈动态适应课程计划，并通过集成的知识图谱促进情境感知的辅导，尽管还需要进行系统评估。

发布时间: 4/29/2025

查看原文

AI代理的哲学转向：替代集中式的数字修辞学，采用分散式的真理探索

作者: Philipp Koralus

arXiv:2504.18601v1 类别: cross 摘要：面对飞速发展的AI技术，个人将越来越多地依赖AI代理来应对生活中不断增加的复杂性，这引发了关于保持人类自主性和能力的关键性关注。本文探讨了AI决策支持系统所提出的根本性困境：要么因面对复杂决策而感到压倒性，从而失去自主性，要么因外部控制的选择架构而受到限制，这些架构类似于“引导性”措施，从而威胁到自主性的完整性。虽然基于选择框架的“引导性”框架最初似乎保护了自由，但在AI驱动的规模下，它威胁到自主性的丧失。为了应对这种风险，本文提出了在AI设计中采取一种哲学转向。AI应该被构建为促进分散式的事实探索和开放性探究，模拟哲学对话中的苏格拉底方法。通过促进个体和集体的适应性学习，这样的AI系统将赋予用户维持其判断控制权的能力，增强其自主性而不损害其自主性。文章最后概述了自主性保护AI系统的关键特征，勾勒出一条通往增强人类判断而非削弱人类判断的AI系统的道路。

发布时间: 4/29/2025

查看原文

BadMoE: 通过优化路由触发和感染休眠专家来后门化专家混合模型大语言模型

作者: Qingyue Wang, Qi Pang, Xixun Lin, Shuai Wang, Daoyuan Wu

arXiv:2504.18598v1 Announce Type: cross 摘要：混合专家（MoE）已成为大型语言模型（LLMs）的强大架构，使其能够在保持可管理的计算成本的同时，有效地扩展模型容量。关键优势在于它们能够将不同的令牌路由到模型内的不同“专家”网络，从而实现专业化并高效处理各种输入。然而，MoE基的LLMs的潜在漏洞仍然几乎没有被研究过，它们在这一背景下的后门攻击潜力也 largely 不清楚。本文提出了针对MoE基的LLMs的第一个后门攻击，攻击者通过优化路由触发器来毒化“潜伏的专家”（即未充分利用的专家），并激活它们，从而获得对模型输出的控制。我们首先严格证明MoE模型中存在少数“主导专家”，其输出能够决定整体MoE的输出。我们还展示了潜伏专家如何作为主导专家来操纵模型预测。因此，我们的攻击，名为BadMoE，通过利用MoE模型的独特架构来1）识别与目标任务无关的潜伏专家，2）构建一种感知路由的损失函数来优化这些专家的激活触发器，3）通过中毒训练数据促进潜伏专家的主导角色。

发布时间: 4/29/2025

查看原文

使用合成数据和可配置扰动管道优化隐私-效用权衡

作者: Anantha Sharma, Swetha Devabhaktuni, Eklove Mohan

arXiv:2504.18596v1 宣告类型: cross 摘要：本文探讨了如何利用现代合成数据生成和高级数据扰动技术，在管理大型数据集时增强安全性、保持分析效用并提高运营效率，特别是在银行、金融服务和保险（BFSI）产业中。我们对比了这些先进的方法，包括生成模型（如GANs）、复杂的上下文感知的个人可识别信息（PII）转换、可配置的统计扰动以及差分隐私与传统的匿名化方法。目标是创建适用于复杂机器学习任务和分析的现实、隐私保护的数据集，这对于诸如BFSI、医疗保健、零售和电信等数据敏感行业至关重要。我们讨论了这些现代技术如何相对于较旧的方法，在保护隐私的同时保持数据效用方面可能提供显著改进。此外，我们还研究了使用这些增强隐私的数据集可能实现的运营效益，例如减少成本和加速分析。我们还探讨了这些方法在关键用例中的应用，这些用例能够减轻监管风险，并在不泄露敏感客户信息的情况下实现可扩展的、数据驱动的创新。

发布时间: 4/29/2025

查看原文

EnviroPiNet：一个基于物理 guides 的人工智能模型，用于预测生物过滤器性能

作者: Uzma, Fabien Cholet, Domenic Quinn, Cindy Smith, Siming You, William Sloan

arXiv:2504.18595v1 Announce Type: cross 摘要：环境生物技术，如饮用水生物滤池，依赖于微生物群落与其周围物理化学环境之间的复杂相互作用。由于缺乏多样性、数据稀疏且未能充分捕捉系统行为的高维数据集，预测这些系统的性能极具挑战性。准确的预测模型需要创新且基于科学的方法。在此研究中，我们首次将 Buckingham Pi 理论应用于生物滤池性能建模。这种降维技术识别出有意义的无量纲变量，从而提高预测精度并改善模型可解释性。利用这些变量，我们建立了环境 Buckingham Pi 神经网络（EnviroPiNet），这是一种基于物理原理的模型，与传统的数据驱动方法（包括主成分分析（PCA）和自动编码器神经网络）进行了基准测试。我们的研究结果显示，EnviroPiNet 模型在测试数据集上的 R^2 值为 0.9236，显著优于 PCA 和自动编码器方法。Buckingham Pi 变量还提供了有关生物滤池行为的物理和化学关系的见解，对于系统的设计和优化具有重要意义。本研究突显了将物理原理与人工智能方法相结合以建模由稀疏、高维数据集表征的复杂环境系统潜力。

发布时间: 4/29/2025

查看原文