arXiv 论文列表

作者: Sudesh Ramesh Bhagat, Ibne Farabi Shihab, Anuj Sharma

arXiv:2504.13068v2 提交类型: replace-cross 摘要：本研究探讨了深度学习（DL）模型准确性和专家在分类事故叙述时的一致性之间的关系。我们评估了五种DL模型——包括BERT变体、USE和零样本分类器——与专家标签和叙述的对比情况，并将分析扩展到四种大型语言模型（LLMs）：GPT-4、LLaMA 3、Qwen和Claude。研究发现表明一种逆向关系：技术准确性较高的模型通常与人类专家的一致性较低，而大型语言模型则表现出更强的专家一致性，尽管其准确率较低。我们使用Cohen’s Kappa和主成分分析（PCA）来量化和可视化模型与专家的一致性，并使用SHAP分析来解释错误分类。结果表明，与专家一致的模型更多依赖于上下文和时间的线索，而不是位置特定的关键词。这些发现表明，对于涉及安全的关键自然语言处理任务而言，仅靠准确率是不够的。我们建议将专家一致性纳入模型评估框架，并强调大型语言模型在事故分析流水线中作为可解释工具的潜力。

发布时间: 5/5/2025

查看原文

MAVEN：多模态注意力的情绪网络

作者: Vrushank Ahire, Kunal Shah, Mudasir Nazir Khan, Nikhil Pakhale, Lownish Rai Sookha, M. A. Ganaie, Abhinav Dhall

arXiv:2503.12623v2 宣告类型: 交叉替换摘要：在野生环境中进行动态情绪识别仍然具有挑战性，因为情绪表达具有短暂性，多模态线索的时间对齐也不一致。传统方法预测正负性和唤醒水平，但往往忽略了这两个维度之间的固有关联。本文提出的多模态注意力值唤醒情绪网络（MAVEN）通过双向跨模态注意力机制整合了视觉、听觉和文本模态。MAVEN 使用模态特定编码器从同步视频帧、音频片段和转录中提取特征，并根据 Russell 的环形模型以极坐标预测情绪。使用 MAVEN 对 Aff-Wild2 数据集进行评估，其相关性相关系数（CCC）为 0.3061，超过了以 CCC 为 0.22 的 ResNet-50 基线模型。多阶段架构捕捉到会话视频中情绪表达的微妙和短暂性，并在实际情况下提高了情绪识别能力。代码可在以下地址获取：https://github.com/Vrushank-Ahire/MAVEN_8th_ABAW

发布时间: 5/5/2025

查看原文

ArticuBot：通过大规模模拟学习通用articulated物体操控策略

作者: Yufei Wang, Ziyu Wang, Mino Nakura, Pratik Bhowal, Chia-Liang Kuo, Yi-Ting Chen, Zackory Erickson, David Held

arXiv:2503.03045v2 宣告类型: replace-cross 摘要: 本文介绍了ArticuBot，在这个系统中，单一学习出的策略能够让机器人系统在现实世界中打开多种未见过的铰接物体。由于这类物体的几何形状、尺寸和铰接类型存在巨大差异，这一任务长期以来一直是机器人技术的挑战。我们的系统，ArticuBot，由三个部分组成：在基于物理的模拟中生成大量演示；通过模仿学习将所有生成的演示提炼为基于点云的神经策略；以及在真实机器人系统上进行零样本仿真实验转移。利用基于采样的抓取和运动规划，我们的演示泛化流水线既快速又有效，总共生成了42,300个演示，用于322个训练铰接物体。在策略学习方面，我们提出了一种新颖的分层策略表示方法，在这种方法中，高层次策略学习末端执行器的目标，而低层次策略则在预测的目标条件下学习如何移动末端执行器。我们证明了这种分层方法相较于非分层版本在物体级别泛化方面表现更好。我们还提出了一种适用于高层次策略的新加权位移模型，将预测与场景中存在的3D结构进行对接，优于其他策略表示方法。我们展示了我们的学习策略可以零样本跨三个不同的真实机器人环境进行迁移：两间不同实验室中固定在桌上的Franka手臂，以及用于在两间不同实验室、真实休息室和厨房中打开多种未见过的铰接物体的移动基座上的X-Arm。相关视频和代码可以在我们的项目网站上找到：https://articubot.github.io/。

发布时间: 5/5/2025

查看原文

YARE-GAN: 又是另一个静息状态EEG-GAN

作者: Yeganeh Farahzadi, Morteza Ansarinia, Zoltan Kekecs

arXiv:2503.02636v2 宣告类型: replace-cross 摘要：在这项研究中，我们实现了带梯度惩罚的Wasserstein GAN（WGAN-GP）来生成多通道静息状态EEG数据，并通过视觉和基于特征的评估来评估合成信号的质量。我们的结果显示，该模型有效地捕捉了真实EEG数据的统计特性和频谱特性，尽管在前部区域复制高频振荡仍存在挑战。此外，我们展示了判别器学习到的表示可以在性别分类任务中重复使用，其外部样本准确率显著优于打乱标签的基线和直接在EEG数据上训练的模型。这些发现表明，生成模型不仅可以作为EEG数据生成器，还可以作为无监督特征提取器，从而减少手动特征工程的需求。本研究突显了基于GAN的无监督学习在EEG分析中的潜在价值，暗示了神经科学中更高效的数据驱动学习应用的途径。

发布时间: 5/5/2025

查看原文

神经定理证明器中的激活导向

作者: Shashank Kirtania

arXiv:2502.15507v2 通知类型: replace-cross 摘要：大型语言模型（LLMs）在使用Lean等证明助手证明形式定理方面展现了潜力。然而，当前最先进的语言模型在预测证明中的下一步时存在困难，促使实践者采用不同的采样技术以提高LLMs的能力。我们观察到，LLM能够预测正确的策略；然而，它在适当排序候选策略方面面临挑战，这影响了整体选择过程。为了克服这一困难，我们在推理时刻使用激活控制来指导LLM的响应，以改进生成结果。我们的结果表明，激活控制为增强LLMs的定理证明能力提供了一种轻量级的有前景的替代方案，特别是在资源受限的环境中尤其有价值。

发布时间: 5/5/2025

查看原文

以人为本的解释并不适用于所有情况：社会技术、认知和个体因素在AI解释对算法决策影响中的相互作用

作者: Yongsu Ahn, Yu-Ru Lin, Malihe Alikhani, Eunjeong Cheon

arXiv:2502.12354v2 说明类型: replace-cross 摘要：近年来，关于XAI的研究探讨了构成 AI 辅助决策中“良好”解释的因素。尽管解释的人类友好特性，如对比性和选择性，已经在现有研究中被广泛接受，但这些研究结果仍然存在不一致。为了弥补这些差距，我们的研究集中在解释评估的认知维度上，通过评估六种使用不同对比策略和信息选择性解释的方法，并审查其评估过程背后的因素。我们的分析结果显示，一般而言，对比性解释并不是最可偏好或易理解的；相反，不同的对比性和选择性解释根据解释的对象、时间、方式以及需要解释的内容，在不同的认知负荷和参与度以及社会技术背景下的不同水平上得到了不同程度的认可。鉴于这些发现，我们呼吁对于解释策略采取一种更为细致的看法，并对设计AI界面以适应AI辅助决策中个体和环境差异提出建议。

发布时间: 5/5/2025

查看原文

AT-Drone：多无人机追捕中自适应协同的基准测试

作者: Yang Li, Junfan Chen, Feng Xue, Jiabin Qiu, Wenbin Li, Qingrui Zhang, Ying Wen, Wei Pan

arXiv:2502.09762v2 公告类型: replace-cross 摘要：自适应编队——代理能够在没有先验协调的情况下与不熟悉的队友有效协作的能力——在虚拟视频游戏中得到了广泛探索，但在实际多机器人环境中却被忽视。然而，这种自适应协作对于实际应用至关重要，包括边境监控、搜索与救援以及反恐行动。为了填补这一空白，我们介绍了AT-Drone，这是第一个专门设计的基准，旨在促进多无人机追逐场景中自适应编队策略的全面训练和评估。AT-Drone 的主要贡献如下：(1) 一个可调节的仿真环境配置器，使用户能够直观和快速地设置多无人机追逐任务，包括四个预定义的追逐环境。(2) 一个简化了的实际部署管道，可以无缝地将仿真洞见转化为实际的无人机评估，使用边缘设备和Crazyflie无人机。(3) 一个新的算法集合，与分布式训练框架集成，包含了各种专门为多捕手和多逃逸者设置首次打造的算法。(4) 标准化的评估协议，配有多款新设计的未见过的无人机集合，旨在严格评估自适应编队的性能。四项渐进挑战的多无人机追逐场景的全面实验评估确认了AT-Drone 在推进自适应编队研究方面的有效性。实际无人机实验进一步验证了其在真实的机器人操作中的可行性和实用性。视频、代码和权重可在 https://sites.google.com/view/at-drone 获取。

发布时间: 5/5/2025

查看原文

MELON：通过掩码重执行和工具对比的可证明间接提示注入防御

作者: Kaijie Zhu, Xianjun Yang, Jindong Wang, Wenbo Guo, William Yang Wang

arXiv:2502.05174v2 Announce Type: replace-cross 摘要：近期的研究表明，LLM代理容易受到间接提示注入(IPI)攻击，其中包含在工具检索信息中的恶意任务可以引导代理执行未经授权的操作。现有的IPI防御具有显著的局限性：要么需要重要的模型训练资源，要么对复杂攻击的效果不佳，要么损害了正常的功能。我们提出了MELON（Masked re-Execution and TooL comparisON）这一新颖的IPI防御方法。我们的方法基于观察到，在成功的攻击下，代理的下一个动作变得更加依赖于恶意任务而不是用户任务。基于这一点，我们设计MELON通过使用掩码函数修改用户提示来重新执行代理的轨迹，以检测攻击。我们如果发现原始执行和掩码执行生成的动作相似，则认为存在攻击。我们还包括了三个关键设计，以减少潜在的误判和漏判。在IPI基准AgentDojo上的广泛评估表明，MELON在攻击预防和功能保留方面优于当前最先进的防御方法。此外，我们展示了将MELON与当前最先进的提示增强防御（表示为MELON-Aug）结合使用进一步提高了其性能。我们还进行了详细的功能去除研究以验证我们关键的设计。

发布时间: 5/5/2025

查看原文

协作推理用于具有令牌级别路由的大语言模型解码的高效性

作者: Wenhao Zheng, Yixiao Chen, Weitong Zhang, Souvik Kundu, Yun Li, Zhengzhong Liu, Eric P. Xing, Hongyi Wang, Huaxiu Yao

arXiv:2502.01976v5 宣告类型: replace-cross 摘要：大型语言模型在各种任务中取得了显著的成果，但在推理过程中遭受高计算成本的困扰，限制了其在资源受限应用中的部署。为了解决这个问题，我们提出了一种名为 Collaborative Inference with Token-level Routing (CITER) 的新型框架，该框架通过一种基于标记级路由策略实现了小型和大型语言模型（SLMs 和 LLMs）之间的高效协作。具体而言，CITER 将非关键标记路由到 SLM 以提高效率，并将关键标记路由到 LLM 以提高泛化质量。我们将路由器训练形式化为一种策略优化过程，其中路由器根据预测质量和生成的推理成本获得奖励。这使得路由器能够学习预测标记级路由分数，并基于当前标记及其决策对未来影响作出路由决策。为了进一步加速奖励评估过程，我们引入了一种捷径，大幅减少了奖励估计的成本，提高了我们方法的实用性。在五个基准数据集上的广泛实验表明，CITER 在保留高质量生成的同时降低了推理成本，为实时和资源受限的应用提供了有前途的解决方案。我们的数据和代码可在 https://github.com/aiming-lab/CITER 获取。

发布时间: 5/5/2025

查看原文

跨越合成数据和实际基准通过域仿射变换的代理模型迁移学习

作者: Shuaiqun Pan, Diederick Vermetten, Manuel L\'opez-Ib\'a\~nez, Thomas B\"ack, Hao Wang

arXiv:2501.14012v3 宣告类型: 更换-交叉摘要：代理模型经常被用作真实世界过程昂贵执行的高效替代品。然而，构建高质量的代理模型往往需要大量的数据收集。解决这一问题的一种方法是在任务之间存在某些不变性的情况下，转移预训练的代理模型到新任务。本研究集中于将非可微代理模型（例如随机森林）从源函数转移到目标函数，我们假设这些函数的定义域通过一个未知的仿射变换相关，并且仅使用在目标上评估的有限数量的转移数据点。先前的研究试图解决这一挑战，特别是对于可微模型，例如高斯过程回归，它通过调整仿射变换来最小化转移数据的实经验风险。在本文中，我们将前人的工作扩展到随机森林，并在广泛使用的黑盒优化基准（BBOB）测试库以及四个真实世界的转移学习问题上评估其效果。结果突显了所提出方法的显著实践优势，特别是在减少复杂真实世界场景中训练代理模型所需的数据和计算成本方面。

发布时间: 5/5/2025

查看原文