arXiv 论文列表

作者: Jiuding Sun, Jing Huang, Sidharth Baskaran, Karel D'Oosterlinck, Christopher Potts, Michael Sklar, Atticus Geiger

arXiv:2503.10894v3 宣告类型: 替换-交叉摘要：机制可解释性在识别神经网络特征（例如，隐藏激活空间中的方向）方面取得了巨大进展，这些特征可以中介概念（例如，某人的出生年份）并实现可预测的操作。分布式对齐搜索 (DAS) 利用反事实数据的监督来在隐藏状态中学习概念特征，但 DAS 假设我们能够承担对潜在特征位置进行暴力搜索的成本。为了解决这个问题，我们提出了基于变压器的超网络架构 HyperDAS，该架构可以（1）自动定位概念在残差流中实现的标记位置，以及（2）为这些残差流向量构建概念的特征。在使用 Llama3-8B 的实验中，HyperDAS 在 RAVEL 基准测试中实现了最先进的表现，用于分离隐藏状态中的概念。此外，我们回顾了设计 HyperDAS 时所做的决策，以减轻这种担忧，即 HyperDAS（与所有强大的可解释性方法一样）可能会向目标模型注入新的信息，而不是忠实地解释它。

发布时间: 4/28/2025

查看原文

没有失败数据的情况下我们能检测到失败吗？一种面向模仿学习策略的aware不确定性运行时失败检测方法

作者: Chen Xu, Tony Khuong Nguyen, Emma Dixon, Christopher Rodriguez, Patrick Miller, Robert Lee, Paarth Shah, Rares Ambrus, Haruki Nishimura, Masha Itkina

arXiv:2503.08558v2 宣告类型：替换交叉摘要：近年来，随着模仿学习和生成建模的发展，特别是随着扩散模型和流模型方法的进步，见证了一系列令人印象深刻的机器人操作系统。随着机器人策略性能的提高，可实现的任务的复杂性和时间范围也随之增加，这导致了难以预测的多种出错模式。为了在安全关键的人类环境中实现可靠的操作策略部署，决策时的失败检测变得尤为重要。然而，大多数现有的失败检测方法依赖于失败模式的先验知识，并且需要在训练期间使用失败数据，这在实际应用和扩展性方面提出了重大挑战。针对这些局限性，我们提出了FAIL-Detect，这是一种用于基于模仿学习的机器人操作失败检测的模块化两阶段方法。为了仅从成功的训练数据中准确识别失败，我们将问题表述为顺序分布外（OOD）检测问题。我们首先将策略输入和输出压缩为与策略失败相关联的标量信号，并捕捉表征性不确定性。然后，FAIL-Detect 使用可变形预测（CP）作为不确定性的量化框架，以提供统计保证。通过实证研究，我们在多种机器人操作任务中全面调查了已学习的和事后处理的标量信号候选方案。我们的实验表明，已学习的信号通常表现得更为一致有效，尤其是当我们使用我们的新颖流模型密度估计器时。此外，我们的方法比最先进的（SOTA）失败检测基线更准确且更快速地检测失败。这些结果突显了FAIL-Detect 有能力增强基于模仿学习的机器人系统在迈向实际部署过程中的安全性和可靠性。

发布时间: 4/28/2025

查看原文

基于深度切分的图嵌入和聚类

作者: Zhiyuan Ning, Zaitian Wang, Ran Zhang, Ping Xu, Kunpeng Liu, Pengyang Wang, Wei Ju, Pengfei Wang, Yuanchun Zhou, Erik Cambria, Chong Chen

arXiv:2503.06635v3 宣布类型: 替换交叉摘要: 图聚类旨在将图划分为不同的聚类。最近出现的深度图聚类方法大多基于图神经网络(GNN)。然而，现有的基于GNN的深度图聚类算法普遍存在表示崩溃的问题。我们认为这种问题的主要原因有两个方面：(i) GNN模型的归纳偏见：GNN倾向于为相邻节点生成相似的表示。由于图中往往包含相当可观数量的跨聚类链接，这种偏见会导致错误的信息传递并导致有偏的聚类；(ii) 聚类指导损失函数：大多数传统方法试图使所有样本都更接近预学习的聚类中心，这导致了一个退化的解决方案，即将所有数据点分配到一个标签，从而使所有样本相似且缺乏区分性。为了解决这些挑战，我们从图切的视角出发研究图聚类，并提出了一种创新且非基于GNN的Deep Cut-informed Graph嵌入和聚类框架，即DCGC。该框架包括两个模块：(i) 切割指导的图编码；(ii) 基于最优传输的自我监督图聚类。对于编码模块，我们推导出一个切割指导的图嵌入目标，通过最小化它们联合的归一化切割来融合图结构和属性。对于聚类模块，我们利用最优传输理论来获得聚类分配，这可以平衡“接近预学习聚类中心”的指导。凭借上述两个定制化的设计，DCGC更适合图聚类任务，可以有效缓解表示崩溃的问题并获得更好的性能。我们在广泛的实验中证明，与基准方法相比，我们的方法简单且有效。

发布时间: 4/28/2025

查看原文

基于强化学习的威胁评估

作者: Wuzhou Sun, Siyi Li, Qingxiang Zou, Zixing Liao

arXiv:2503.02612v2 公告类型: replace-cross 摘要: 在某些游戏场景中，由于敌方单位数量的不确定性以及各类属性的优先级问题，敌方单位的威胁等级评估及筛选一直是具有挑战性的研究课题，核心难题在于如何合理设定不同属性的优先级，以便实现对威胁的定量评估。本文创新性地将威胁评估问题转化为强化学习问题，并通过系统的强化学习训练，成功构建了一个高效的神经网络评估器。该评估器不仅能够综合集成敌方的多维属性特征，还能有效结合我们的状态信息，从而实现更为准确和科学的威胁评估。

发布时间: 4/28/2025

查看原文

函数一致的赌注

作者: Gregory Wheeler

arXiv:2503.01855v2 宣告类型: replace-cross 摘要：可接受赌博框架提供了一种基本的方法来建立不精确概率理论，但依赖于线性效用假设。本文引入了一种功能一致的赌博方式，该方式包容了非线性效用，同时保留了核心的理性属性。我们确立了功能一致性的核心公理，并证明了通过连续线性函数表示可接受赌博的表示定理。然后将该框架应用于分析跨期选择中的各种折现形式，包括双曲、准双曲、依赖规模和依赖状态的折现。我们展示了这些不同于常率指数折现的替代方法如何可以整合到功能一致的框架中。这种统一处理为在可接受性范式内建模复杂的时间偏好模式提供了理论基础，填补了规范理论和在真正不确定性下跨期决策行为观察之间的差距。

发布时间: 4/28/2025

查看原文

学习可操作的工业过程控制世界模型

作者: Peng Yan, Ahmed Abdulkadir, Gerrit A. Schatte, Giulia Aguzzi, Joonsu Gha, Nikola Pascher, Matthias Rosenthal, Yunlong Gao, Benjamin F. Grewe, Thilo Stadelmann

arXiv:2503.01411v3 宣告类型: replace-cross 摘要：要从被动的过程监控转变为积极的过程控制，一个有效的AI系统必须学会从非常有限的训练数据中了解复杂系统的行为，形成针对过程输入和输出的临时数字孪生，捕捉行动对过程世界的影响。我们提出了一种基于学习世界模型的新方法，该方法在学习潜空间表示中解耦了过程参数，允许精细控制。表示学习是通过联合嵌入预测架构内的对比学习驱动的，这使得从输入的变化来预测表示的变化，反之亦然，从而促进了关键因素的可解释性，这些因素负责过程的变化，为保持过程在运行界限内提供了有效的控制行动。我们的方法在注塑成型示例上的有效性得到了验证，展示了在提出特定控制行动方面对一个众所周知的不稳定的工艺的实际相关性。

发布时间: 4/28/2025

查看原文

HALO：硬件感知量化与低关键路径延迟权重的LLM加速

作者: Rohan Juneja, Shivam Aggarwal, Safeen Huda, Tulika Mitra, Li-Shiuan Peh

arXiv:2502.19662v2 通知类型: 替换-交叉摘要：量化对于有效地部署大型语言模型（LLMs）至关重要。然而，传统的量化方法仍然在硬件方面保持中立，仅限于位宽约束，并且不考虑乘加（MAC）单元等固有电路特性，如时序行为和能量剖面。这种与电路级行为的脱节限制了利用可用的时序余量和节能机会的能力，从而降低了在现代加速器上部署的整体效率。为了弥补这些限制，我们提出了HALO，一个适用于硬件感知后训练量化（PTQ）的多功能框架。与传统的量化方法不同，HALO 明确地将详细的硬件特性，包括关键路径时序和能耗，纳入其量化方法中。HALO 通过选择具有低关键路径延迟的权重，使其能够支持更高的操作频率和动态频率缩放，同时不破坏架构的数据流。令人 Remarkably，HALO 通过仅进行少量动态电压和频率缩放（DVFS）调整实现这些改进，确保部署的简单性和实用性。此外，通过减少 MAC 单元内的切换活动，HALO 有效降低了能耗。在张量处理单元（TPUs）和图形处理单元（GPUs）等加速器上的评估表明，HALO 显著提高了推理效率，相对于基线量化方法实现了平均性能改进270%和能耗节省51%，同时对准确性的影响 minimal。

发布时间: 4/28/2025

查看原文

EMT：阿拉伯海湾地区自主驾驶的多任务视觉基准数据集

作者: Nadya Abdel Madjid, Murad Mebrahtu, Abdelmoamen Nasser, Bilal Hassan, Naoufel Werghi, Jorge Dias, Majid Khonji

arXiv:2502.19260v3 公告类型: replace-cross 摘要：本文介绍了阿拉伯联合酋长国多任务（EMT）数据集，旨在支持在统一框架下的多任务基准测试。该数据集包含超过 30,000 个来自行驶记录仪视角的帧和 570,000 个标注的边界框，涵盖了大约 150 公里反映海湾地区道路拓扑、拥堵模式和驾驶行为的驾驶路线。该数据集支持三个主要任务：跟踪、轨迹预测和意图预测。每个基准测试都附带相应的评估：（1）多代理跟踪实验，针对多类场景和遮挡处理；（2）使用深度序列和交互感知模型的轨迹预测评估；以及（3）基于观察到的轨迹的意图预测实验。该数据集可在 https://avlab.io/emt-dataset 上公开获取，预处理脚本和评估模型可在 https://github.com/AV-Lab/emt-dataset 上找到。

发布时间: 4/28/2025

查看原文

FACTR：力关注递进训练在接触丰富的策略学习中

作者: Jason Jingzhou Liu, Yulong Li, Kenneth Shaw, Tony Tao, Ruslan Salakhutdinov, Deepak Pathak

arXiv:2502.17432v2 通知类型: 交叉替换摘要：人类执行的许多接触密集型任务，如捡拾箱子或擀面团，都依赖于力反馈以实现可靠执行。然而，大多数机器人臂中易于获得的力信息在远程操作和策略学习中并未得到充分利用。因此，机器人的行为往往局限于不需要复杂力反馈的准静态运动学任务。在本文中，我们首先提出了一种低成本、直观的双边远程操作设置，该设置将跟随臂的外部力信息反馈给教师臂，从而促进复杂接触密集型任务的数据收集。然后，我们介绍了FACTR，一种采用递进课程的学习方法，该方法通过在整个训练过程中逐渐降低视觉输入的干扰来利用变压器模型。该课程防止我们的基于变压器的策略过度拟合到视觉输入，并引导策略正确关注力模态。我们证明通过充分利用力信息，我们的方法在与没有课程的基础方法相比的情况下，显著提高了对未见过的物体的泛化能力，提高了43%。视频结果、代码库和使用方法可参见 https://jasonjzliu.com/factr/

发布时间: 4/28/2025

查看原文

我们能治理代理对代理的经济吗？

作者: Tomer Jordi Chaffer

arXiv:2501.16606v2 安全类型: 替换-交叉摘要：当前的人工智能治理方法往往在预见未来的情况下显得不足，那时人工智能代理将管理关键任务，如金融操作和行政功能等。虽然加密货币可以作为人工智能代理在协作和代理动态中进行价值交换的基础，一个关键问题仍然存在：随着基于人工智能代理的未来经济规模扩大和演变，人类如何确保有效的监督和控制？在这篇哲学探索中，我们强调了行业中的新兴概念，以指导对未来去中心化代理经济的研究和开发努力。

发布时间: 4/28/2025

查看原文