arXiv 论文列表

作者: Julian B\"aumler, Louis Bl\"ocher, Lars-Joel Frey, Xian Chen, Markus Bayer, Christian Reuter

arXiv:2504.08609v1 交叉类型公告摘要：在线仇恨言论的传播可能会对个人、在线社区乃至整个社会产生严重的负面影响。这种现象以及大量的仇恨在线内容促使内容审核从业者（如内容审核或执法部门）和研究者对自动分类仇恨言论的机器学习模型产生了兴趣。尽管大多数科学研究将仇恨言论分类视为二元任务，但实践往往需要对仇恨言论进行细分，例如按目标、严重程度或合法性，这些细分在个别内容上可能会重叠。因此，研究人员创建了数据集和机器学习模型，将仇恨言论分类在文本数据中视为多标签问题。本文呈献了对该新兴研究领域的首个系统且全面的英文文献综述（N=46）。我们提供了一份简明的多标签分类模型训练适用的28个数据集概述，揭示了在标签集、规模、元概念、标注过程和注释者间一致性方面存在显著差异。我们对24篇提出合适的分类模型的出版物的分析进一步证明了评估的一致性问题，并偏好基于双向编码表示变换器（BERT）和循环神经网络（RNN）的架构。我们识别出了训练数据不平衡、对众包平台的依赖、小规模稀疏数据集以及方法论对齐缺失等关键开放问题，并提出了十个研究建议。

发布时间: 4/14/2025

查看原文

神经准确性校准以实现信息性的模拟到现实适应

作者: Youwei Yu, Lantao Liu

arXiv:2504.08604v1 宣告类型: cross 摘要: 深度强化学习可以从模拟器无缝地转移敏捷的运动和导航技能到现实世界。然而，使用领域随机化或对抗方法弥合模拟器与现实之间的差距往往需要专家物理知识以确保政策稳健性。即使如此，最先进的模拟器在捕捉每个现实世界细节方面可能仍有所不足，重建的环境也可能由于各种感知不确定性而引入误差。为了解决这些挑战，我们提出了神经保真度校准（NFC），这是一种新颖的框架，利用条件分数扩散模型在机器人执行过程中在线校准模拟器的物理系数和剩余保真度领域。具体而言，剩余保真度反映了仿真模型相对于真实世界动力学的变化，并捕获了感知环境的不确定性，使我们能够在推断出的分布下采样现实环境进行策略调整。我们的框架在三个方面具有信息性和适应性：(a) 我们仅在异常场景下微调预训练策略，(b) 我们在线构建基于预训练NFC的建议先验的连续NFC，减少了扩散模型的训练负担，(c) 当NFC的不确定性高且可能损害政策改进时，我们利用乐观探索来启用幻觉策略优化。我们的框架在高维参数空间的各种机器人中，相对于最先进的方法实现了更优的模拟器校准精度。我们研究了剩余保真度对政策改进的关键贡献，在模拟和现实世界实验中进行了研究。值得注意的是，我们的方法在具有挑战性的现实世界条件中展示了稳健的机器人导航能力，例如在雪地表面上车轮轴损坏的情况。

发布时间: 4/14/2025

查看原文

FindAnything：任意环境中的开放词汇和以对象为中心的机器人探索映射

作者: Sebasti\'an Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Stefan Leutenegger

arXiv:2504.08603v1 Announce Type: cross 摘要：几何上准确且语义丰富的地图表示已被证明对促进鲁棒且安全的移动机器人导航和任务规划极具价值。然而，实时地对大规模未知环境进行开放词汇语义理解仍然是一个开放的问题。本文介绍了FindAnything，这是一种将视觉-语言信息引入稠密体素子地图的开世界测绘与探索框架。借助视觉-语言特征，FindAnything弥合了纯粹几何和开放词汇语义信息之间的差距，从而实现更高层次的理解，同时允许无需任何外部来源的真实姿态信息即可探索任何环境。我们将环境表示为一系列体素占用子地图，从而产生一种在姿态更新时能够适应SLAM系统纠正漂移的稳健且准确的地图表示，允许子地图之间局部一致的表示。像素级别的视觉-语言特征从高效的eSAM生成的片段中聚集而来，随后整合到以对象为中心的体素子地图中，提供一种从开放词汇查询到三维几何的映射，既在内存使用方面也具有可扩展性。FindAnything的开放词汇地图表示在Replica数据集的封闭集评估中实现了最先进的语义准确性。这种场景理解水平使机器人能够基于通过自然语言查询选择的对象或感兴趣的区域来探索环境。我们的系统是首个部署在资源受限设备（如MAVs）上，并利用视觉-语言信息进行实际机器人任务的系统。

发布时间: 4/14/2025

查看原文

关于计算机视觉DNN中后验概念嵌入的背景偏差研究

作者: Gesina Schwalbe, Georgii Mikriukov, Edgar Heinert, Stavros Gerolymatos, Mert Keser, Alois Knoll, Matthias Rottmann, Annika M\"utze

arXiv:2504.08602v1 宣布类型: 交叉摘要: 概念驱动的可解释人工智能（C-XAI）这一繁荣的研究领域探讨了人类可解释语义概念如何嵌入深度神经网络（DNN）的潜在空间中。其中的后验方法使用一组示例来指定一个概念，并利用数据驱动的方法确定其在DNN潜在空间中的嵌入。这种方法已被证明有助于揭示不同目标（前景或概念）类别之间的偏差。然而，由于在训练过程中背景主要不受控制，到目前为止一个重要问题尚未得到解答：最先进的数据驱动的后验C-XAI方法本身是否容易受到背景偏差的影响？例如，野生动物主要出现在植被背景中，很少出现在道路上。即使是最简单和最稳健的C-XAI方法也可能会利用这种捷径以提高性能。因此，道路场景中动物概念的性能退化可能会被忽视。本研究验证并彻底确认，成熟的基于Net2Vec的概念分割技术频繁地捕获背景偏差，包括令人担忧的偏差，如在道路场景上的表现不佳。为进行分析，我们在两个数据集的50多个概念上比较了领域内3种背景随机化技术，以及7种不同的DNN架构。结果显示，即使低成本设置也能提供有价值的信息，并提高背景的鲁棒性。

发布时间: 4/14/2025

查看原文

MedHal: 医学幻觉检测评估数据集

作者: Gaya Mehenni, Amal Zouaq

arXiv:2504.08596v1 声明类型: cross 摘要: 我们介绍了MedHal，这是一个新型大规模数据集，专门设计用于评估模型是否能够检测医疗文本中的幻觉。当前的幻觉检测方法在应用于像医学这样的专业领域时存在显著的局限性，在这些领域内，它们可能导致灾难性的后果。现有的医疗数据集要么太小，只包含几十到几百个样本，要么专注于单个任务，例如问答或自然语言推理。MedHal通过以下方式解决了这些问题：(1)包含多样化的医疗文本来源和任务；(2)提供了大量适合训练医疗幻觉检测模型的注释样本；(3)包括事实不一致的解释，以引导模型学习。我们通过训练和评估一个基线医疗幻觉检测模型来展示MedHal的实用性，并展示与通用幻觉检测方法相比的进步。该资源使得更高效地评估医疗文本生成系统成为可能，从而减少依赖昂贵的专家审查，有可能加速医疗AI研究的发展。

发布时间: 4/14/2025

查看原文

Hands-On: 从连续序列中分割个体手势

作者: Low Jian He, Harry Walsh, Ozge Mercanoglu Sincan, Richard Bowden

arXiv:2504.08593v1 交叉类型: 宣告摘要: 本文解决了连续手语分割的挑战，这是一个对手语翻译和数据标注具有巨大影响的关键任务。我们提出了一个基于变压器的架构，并使用Begin-In-Out (BIO) 标记方案将手语帧分割建模为一个序列标注问题。我们的方法利用了HaMeR手部特征，并结合了3D角度。广泛的实验表明，我们的模型在DGS语料库上达到了最先进的性能，而我们的特征在BSL语料库上超越了先前的基准。

发布时间: 4/14/2025

查看原文

准备，出价，出发！基于未知且异构能量存储约束的无人机按需配送

作者: Mohamed S. Talamali, Genki Miyauchi, Thomas Watteyne, Micael S. Couceiro, Roderich Gross

arXiv:2504.08585v1 宣布类型: 交叉摘要: 无人机（UAVs）被预期将重塑物流领域，减少交付时间、成本和排放。本研究关注即时配送，其中调度无人机车队以履行随机到达的订单。与以往的工作不同，它考虑了具有未知异质能量存储容量的无人机，并假设不了解能量消耗模型。我们提出了一种去中心化的部署策略，结合了拍卖式任务分配与在线学习。每个无人机根据自身的能量存储电量、包裹重量和配送距离独立决定是否投标。随着时间的推移，它会不断完善其投标策略，仅对自身能力范围内的订单投标。使用现实的无人机能量模型的模拟结果显示，出乎意料的是，将订单分配给最不自信的投标者反而能减少交付时间并增加成功完成的订单数量。这种方法被证明优于要求无人机在部署时达到特定电量水平的阈值方法。我们提出了一种策略的变体，利用学习策略进行预测。这使得电量不足的无人机能够承诺在特定的未来时间履行订单，有助于优先处理早期订单。我们的工作为无人机群的长期部署提供了新的见解，突显了在现实世界动态环境中结合在线学习的去中心化能量感知决策的优势。

发布时间: 4/14/2025

查看原文

利用通用自监督表示增强多人群联邦学习 Chest X-ray 分析

作者: Mahshad Lotfinia, Arash Tayebiarasteh, Samaneh Samiei, Mehdi Joodaki, Soroosh Tayebi Arasteh

arXiv:2504.08584v1 宣布类型: 创新交叉摘要：可靠的医疗图像分析人工智能（AI）模型往往依赖于大规模和多样化的带标签数据集。联邦学习（FL）提供了去中心化和保护隐私的训练方法，但在高度非相互独立和非同分布（non-IID）的环境中表现不佳，即具有代表性的数据更多的机构可能会经历性能下降。此外，现有大规模的FL研究主要限于成人数据集，忽略了儿科数据所带来的独特挑战，这增加了额外的非IID变异性。为了解决这些限制，我们分析了来自多个国家多个机构的n=398,523份成人胸部X光片和n=9,125份儿科图像，并借助通用自监督图像表示进行迁移学习来分类肺炎和无异常情况。使用最新的视觉变换器，我们发现FL仅在较小的成人数据集（P<0.001）中提高了性能，在较大数据集（P<0.064）和儿科病例（P=0.242）中则降低了性能。然而，将FL与自监督权重结合使用显著提升了儿科病例（P=0.031）和大多数成人数据集（P<0.008）的结果，尤其是在最大的数据集（P=0.052）中没有例外。这些发现强调了通用的自监督图像表示在临床FL应用中解决非IID挑战的潜力，并突显了其在提高患者结果和推进儿科护理方面的前景，尤其是在数据稀缺性和变异性仍然普遍存在的情况下。

发布时间: 4/14/2025

查看原文

使用谱分析揭示解释质量的结构

作者: Johannes Mae{\ss}, Gr\'egoire Montavon, Shinichi Nakajima, Klaus-Robert M\"uller, Thomas Schnake

arXiv:2504.08553v1 宣告类型: cross 摘要: 随着机器学习模型在越来越多的高风险领域中被考虑使用，有效的解释方法对于确保其预测策略对用户是透明的至关重要。多年来，已经提出了许多指标来评估解释质量，但它们的实际适用性仍然不清楚，特别是在对每个指标奖励的具体方面缺乏充分理解的问题上。本文提出了一种基于解释结果的谱分析的新框架，以系统地捕捉不同解释技术的多方面属性。我们的分析揭示了解释质量的两个独特因素——稳定性和目标敏感性——这些因素可以通过谱分解直接观察到。在MNIST和ImageNet上的实验表明，流行的评估方法（例如，像素翻转、熵）部分地捕捉了这些因素之间的权衡。总体而言，我们的框架为理解解释质量提供了基础，并指导了更可靠评估方法的发展。

发布时间: 4/14/2025

查看原文

代理锚点和 EVT 驱动的持续学习方法用于通用类别发现

作者: Alireza Fathalizadeh, Roozbeh Razavi-Far

arXiv:2504.08550v1 类型: cross 摘要：连续泛化类别的发现已经在文献中作为一种方法进行引入和研究，其目标是在处理不断到来的数据批次时持续发现和学习新的类别，同时避免遗忘之前学习的类别。解决这一挑战的一个关键是在于模型能够区分新颖样本，极端值理论（EVT）在此方面已被有效利用。在本项工作中，我们提出了一种新颖的方法，将EVT与代理锚点相结合，使用包含概率函数定义代理周围的边界，从而能够拒绝未知样本。此外，我们引入了一种基于EVT的新颖的损失函数，以增强学习到的表示，该方法在其他类似的深度度量学习方法中实现了更优的性能。利用推导出的概率函数，新颖样本能够有效地区分已知类别。然而，在这些新颖样本中进行类别发现有时会导致新类别数量的高估。为缓解这一问题，我们提出了一种基于EVT的新颖方法，以减少模型规模并丢弃冗余代理。我们还在连续学习阶段引入了经验回放和知识蒸馏机制，以防止灾难性遗忘。实验结果表明，在连续泛化类别发现场景中，我们提出的方法优于当前最先进的方法。

发布时间: 4/14/2025

查看原文