arXiv:2504.14779v1 类型: cross
摘要: 虽然生成型人工智能(GenAI)在工作场所中找到了越来越多的应用,但现有的工具主要设计用于个人使用。先前的研究表明,这些工具有可能增强个人的创造力和生产力,以实现共享目标;然而,我们还不清楚如何在工作环境中部署GenAI时最好地考虑到团队工作的复杂性和团队动态。在本文中,我们通过一项探索性研究探讨了协作性GenAI代理增强同步团队环境中的团队合作的潜力。这项研究涉及6个团队中的25名专业人士参与了推测性设计研讨会和个别跟进访谈。我们的研讨会包括混合现实原型,用于模拟能够实际参与小组讨论的身临其境的协作性GenAI代理。我们的研究结果显示,如果设计得当,协作性GenAI代理通过挑战团体思维、弥合沟通差距和减少社交摩擦,为团队解决问题提供了宝贵的机会。然而,团队愿意集成GenAI代理的程度取决于其在多个个体、团队和组织因素方面的契合度。我们概述了代理表示、社会知名度和参与度方面的关键设计权衡,并强调了空间和沉浸式技术可能提供的优势,这些优势可以调节GenAI对团队结果的影响,并在增强和自主性之间找到平衡。
arXiv:2504.14762v1 Dropout 类型: cross
摘要: 我们提出一种组合性和图论意义上的dropout理论,通过将训练建模为高维二进制子网络图上的随机游走。每个节点表示网络的一种掩码版本,dropout 引起随机穿越这个空间。我们定义了一个子网络贡献得分来量化泛化能力,并展示它在图上是连续变化的。使用谱图论、PAC-Bayes 分析和组合数学工具,我们证明了泛化子网络形成了大规模、互连、低阻抗的簇,并且它们的数量随着网络宽度呈指数增长。这揭示了dropout作为一种机制,用于从鲁棒且结构化的高效泛化子网络的子网络池中进行采样,具有内置冗余。详尽的实验验证了每个理论断言,跨越了各种不同的架构。我们的结果共同提供了一个统一的基础来理解dropout,并建议了新的基于掩码的正则化和子网络优化方向。
arXiv:2504.14757v1 类型: cross
摘要:大规模语言模型(LLMs)通过基于代理的方法正在改变自动程序修复(APR)的格局,这些方法能够定位错误、生成补丁并验证修复。然而,高质量、大规模的训练数据集的缺乏,尤其是那些具有可验证输出和中间推理轨迹的数据集——限制了进步,特别是对于开源模型。在本文中,我们提出了一种名为SWE-Synth的框架,用于在仓库级别生成真实的、可验证的和过程意识的错误修复数据集。SWE-Synth利用了LLM代理来模拟调试工作流程,不仅生成错误修复对,还生成测试用例和结构化的修复轨迹。与人工策划的数据集相比,我们的方法在最小的人力投入下实现了规模扩展,同时保持了语境的丰富性和正确性。实验结果表明,使用SWE-Synth训练的模型在SWE-Bench Lite上的表现优于使用真实世界数据集训练的模型,提高了2.3%。我们的结果强调了合成、代理生成的数据在推动程序修复和软件工程自动化领域的最新进展方面的潜力。
arXiv:2504.14751v1 类型: cross
摘要: 在过去几十年中,人工智能在“特定能力”方面取得了诸多成功,这类能力被称为闭世界,例如人工环境或特定的实际任务。这种明确界定的狭义能力带来了两个优点:明确的成功标准以及大量案例的收集机会。这些标准不仅揭示了机器是否实现了目标,而且还揭示了机器在实现目标方面存在哪些不足。结果,人类设计者可以一个接一个地修复这些问题,直到机器被认为足够好以完成任务。此外,收集到的大量案例较少降低了这一问题修复过程的难度(通过中心极限定理)。
闭世界的成功能否转化为广泛开放世界中的成功,在开放世界中,机器需要在较少的示例和较少的人类设计者先验知识的情况下完成任何人类可以完成的任务?不,并非如此。因为特定任务的熟练程度对处理其他任务的洞察甚微,专门任务的价值标准在处理更广泛的未知任务时变得无用。此外,由于未知任务缺少案例,中心极限定理对我们不利。最终,人类设计者失去了调试开放世界中AI系统的“指南针”。
为了实现开放世界的人工智能,需要独特的学习原则和创新的技术,这些原则和技术与构建闭世界人工智能的原则和方法不同。本文探讨了用于构建开放世界人工智能所需的学习原则,包括丰富的特征(如大型工具箱)、去卷积表示(如有序的工具箱)和推理时学习(如擅长使用工具的手)。受学习原则的驱动,本文还提出了应用这些学习原则的技术,并进行了大量大规模实验来验证这些学习原则。
arXiv:2504.14739v1 传感器类型: 交叉
摘要:基于视觉的触觉传感器GelSight已被证明在多个机器人感知和操作任务中非常有效。这些传感器基于内部光学系统和嵌入式摄像头,用于捕获软传感器表面的变形,从而推断接触物体的高分辨率几何形状。然而,为不同的机器人手进行传感器定制需要一个繁琐的试错过程来重新设计光学系统。在本文中,我们将GelSight传感器设计过程表述为一个系统性的和目标驱动的问题,并使用物理上准确的光学仿真进行设计优化。该方法基于模块化和参数化传感器的光学组件,并设计了四个可通用的目标函数来评估传感器。我们使用一个交互式且易于使用的工具箱OptiSense Studio实现该方法。借助该工具箱,非传感器专家可以遵循我们预先定义的模块和步骤,以正向和逆向的方式快速优化其传感器设计。我们通过在仿真中快速优化四个不同GelSight传感器的初始设计,并将其转移到实际传感器上,来展示我们的系统。
arXiv:2504.14737v1 宣布类型: 交叉
摘要: 医学图像分割是一项关键但具有挑战性的任务,主要是由于难以获得大量高质量、专家注释的图像数据集。对比学习为解决这一问题提供了潜在但仍然存在一些问题的解决方案。由于现有的大多数方法集中在提取实例级或像素到像素的表示,而忽略了图像内相似像素组之间的特征。此外,在考虑对比学习对的生成时,大多数最先进的方法主要依赖于人工设定阈值,这需要大量的梯度实验,并且效率低下且缺乏通用性。为了解决这些问题,我们提出了一种名为 SuperCL 的新颖的对比学习方法,用于医学图像分割预训练。具体而言,我们的 SuperCL 通过引入两种新颖的对比学习对生成策略:图像内局部对比学习对 (ILCP) 生成和图像间全局对比学习对 (IGCP) 生成,利用图像的结构先验和像素相关性。考虑到超像素集群很好地符合对比学习对生成的概念,我们利用超像素图来生成用于 ILCP 和 IGCP 的伪掩码,以指导监督对比学习。此外,我们还提出了两个模块:平均超像素特征图生成 (ASP) 和连接组件标签生成 (CCL),以更好地利用先验结构信息来辅助 IGCP。最后,在 8 个医学图像数据集上的实验表明,我们的 SuperCL 在性能上优于现有的 12 种方法。具体来说,我们的 SuperCL 在可视化图中的预测更为精准,在 MMWHS、CHAOS 和 Spleen(10% 注释)数据集上,Dice 系数分别高出前最佳结果 3.15%、5.44% 和 7.89%。我们的代码将在接收后发布。
arXiv:2504.14727v1 声明类型: cross
摘要:人类和大多数动物天生具有持续获取新经验和随着时间积累世事知识的独特能力。这种能力,称为持续学习,对深度神经网络(DNNs)在开放环境中适应动态变化的世界也是至关重要的。然而,当DNNs在顺序任务上进行训练时,它们通常会遭受灾难性遗忘的困扰,即忘记之前学习的知识。在这项工作中,受交互式人类记忆和学习系统的启发,我们提出了一种新颖的生物模拟能力持续学习框架,该框架整合了半参数化记忆和清醒-睡眠巩固机制。我们的方法首次使深度神经网络能够在现实世界的持续学习挑战场景中保留对新任务的高性能,同时保持先前的知识,例如在ImageNet上的类增量学习。这项研究显示,模仿生物智能为赋予深度神经网络持续学习能力提供了有希望的途径。
arXiv:2504.14709v1 宣告类型: cross
摘要: 基于机器学习(ML)的规划器近年来引起广泛关注。它们在传统基于优化的规划算法中提供了许多优势。这些优势包括需要手动选择的参数更少和开发速度更快。在基于机器学习的规划中,模仿学习(IL)是一种常见的算法。它主要直接从监督轨迹数据中学习驾驶策略。尽管IL在许多开环基准测试中表现出色,但仍然很难确定学习到的策略是否真正理解了基本的驾驶原则,而不仅仅是从ego车辆的初始状态外推。一些研究已经识别出这一局限性,并提出了相应的解决方案。然而,这些方法通常使用原始数据集进行评估。在这些数据集中,未来的轨迹很大程度上依赖于初始条件。此外,IL往往会过度适应最常见的场景,难以泛化到罕见或未见过的情况。
为了解决这些挑战,本工作提出:1)一种新颖的闭环仿真器,支持模仿学习和强化学习,2)一个从Waymo Open Dataset派生出的因果基准,以严格评估拷贝猫问题的影响,3)一个新的框架,将模仿学习和强化学习结合起来以克服纯模仿方法的局限性。此工作的代码将在不久后发布。
arXiv:2504.14708v1 交叉公告类型
摘要:基于电生理肌电图(EMG)的手势识别将前臂肌肉活动转换为假肢、康复和人机交互的控制命令。本文提出了一种新颖的基于EMG的手势识别方法,并引入了XMANet,它通过浅层到深层CNN专家之间的跨层互注意实现低级局部和高级语义线索的统一。通过短时傅里叶变换(STFT)和小波变换(WT)得到的堆叠频谱图和尺度图,我们将XMANet与ResNet50、DenseNet-121、MobileNetV3和EfficientNetB0进行了对比基准测试。在Grabmyo数据集上进行的实验结果表明,使用STFT时,所提出的XMANet模型分别在基线ResNet50、EfficientNetB0、MobileNetV3和DenseNet121模型上取得了约1.72%、4.38%、5.10%和2.53%的性能改进。当使用WT方法时,在相同的基线模型上分别观察到约1.57%、1.88%、1.46%和2.05%的性能改进。同样,在FORS EMG数据集上,使用STFT的XMANet(ResNet50)模型相比于基线ResNet50模型,显示出约5.04%的性能改进。相比之下,XMANet(DenseNet121)和XMANet(MobileNetV3)模型分别实现了约4.11%和2.81%的性能增强。此外,当使用WT时,所提出的XMANet在基线ResNet50、DenseNet121、MobileNetV3和EfficientNetB0模型上分别取得了约4.26%、9.36%、5.72%和6.09%的性能改进。这些结果证明了XMANet在不同架构和信号处理技术下持续提升了性能,展示了细粒度特征在准确和稳健的EMG分类中的强大潜力。
arXiv:2504.14704v1 宣告类型: cross
摘要:离分布,out-of-distribution (OOD) 检测方法近年来变得更加重要,作为安全关键自主系统的核心要素。OOD 检测的主要目的是拒绝可能导致不可预测错误并损害安全性的无效输入。由于标记数据的成本高昂,最近的研究工作已经探讨了自我监督学习 (SSL) OOD 检测、无标签 OOD 检测和零样本 OOD 检测的可行性。在本工作中,我们从信息论的角度识别了一组条件,以确保无标签 OOD 检测算法在理论上的失败。这些条件存在于所有涉及真实数据的 OOD 任务中:I) 当学习目标与分布内标签之间不存在互信息时,即所谓的“标签盲视”,我们提供了无标签 OOD 检测失败的理论证明,II) 我们定义了一个新的 OOD 任务——相邻 OOD 检测,用于检测标签盲视,并弥补了所有 OOD 检测基准中以前忽略的安全缺口,III) 我们进行了实验,证明现有的无标签 OOD 方法在我们的标签盲视理论建议的条件下失败,并分析了这对未来无标签 OOD 方法研究的影响。