arXiv 论文列表

RailGo尔维茨铁路测试中心CV数据集2024

arXiv:2504.00204v1 宣布类型：交叉摘要：在城市导向运输和干线铁路上的无人驾驶列车运行需要自动检测列车路径危险区域内的实际和潜在障碍物，特别是人类。机器学习算法在这一任务中已被证明是非常有效的前沿工具。然而，这些算法需要大量高质量的标注数据作为训练数据，特别是包含人类的铁路专用环境数据。不幸的是，公开可用的数据集数量尚未足够，并且在数量和质量上远逊于道路领域的数据集。因此，本文介绍了RailGoerl24，这是来自德国格罗斯利茨TÜV SÜD Rail铁路测试中心的车载全高清视觉相机数据集，包含12205帧数据。其主要目的是支持导向运输下无人驾驶列车运行的发展。RailGoerl24还包括一个地面LiDAR扫描，覆盖用于采集RGB数据的部分区域。除了原始数据外，数据集还包含总共33556个针对“人”这一类别的框标注。录制演员的面部未被模糊或以任何其他方式进行篡改。不久之后，RailGoerl24将可在data.fid-move.de/dataset/railgoerl24获取，也可用于碰撞预测之外的任务。

发布时间: 4/2/2025

查看原文

通过局部损失景观分解识别稀疏活跃电路

作者: Brianna Chrisman, Lucius Bushnaq, Lee Sharkey

arXiv:2504.00194v1 Announce Type: cross 摘要：机制可解释性大多集中在理解大型神经网络的激活空间。然而，基于激活空间的方法很少揭示用于计算特征的底层电路。为了更好地理解模型所使用的电路，我们引入了一种新的分解方法，称为局部损失景观分解（L3D）。L3D 识别一组低秩子网络：参数空间中的某些方向可以重建任意样本的输出与参考输出向量之间的损失梯度。我们设计了一系列逐步更具有挑战性的玩具模型，具有明确定义的子网络，并展示了 L3D 几乎可以完美地恢复相应的子网络。此外，我们研究了将模型沿给定子网络的方向扰动仅影响相关样本子集的程度。最后，我们将 L3D 应用于实际的变换器模型和卷积神经网络，展示了其在参数空间识别可解释和相关的电路的潜力。

发布时间: 4/2/2025

查看原文

泛化基准的准确性是否被误设？

作者: Olawale Salaudeen, Nicole Chiou, Shiny Weng, Sanmi Koyejo

arXiv:2504.00186v1 类型: cross 摘要：虚假相关是一种不稳定的统计关联，阻碍了稳健决策的制定。通常认为，依赖这些关联的模型将在分布外（OOD）泛化时失败，特别是在强分布移动下。然而，实验证据反驳了这一观点，因为简单的就分布内经验风险最小化方法往往在流行的OOD泛化基准上取得最佳的OOD准确性。鉴于这些结果，我们提出了一个不同的视角：许多用于评估对虚假相关稳健性的基准是错误指定的。具体来说，它们未能包含有意义影响OOD泛化的虚假关联变化，使得它们不适于评估去除这些关联的益处。我们建立了在一定条件下，分布移动可以可靠地评估模型对虚假相关依赖性的条件。关键的是，在这些条件下，我们不应观察到在分布内和OOD准确性之间有强烈正相关，通常称为“准确线”。然而，大多数最先进的基准表现出这种模式，表明它们未能有效地评估稳健性。我们的发现揭示了当前用于评估域泛化算法稳健性的基准的一个关键局限性，即设计旨在避免虚假相关性的模型。我们强调了重新思考如何评估对虚假相关稳健性的需求，指出了领域应优先考虑的适当指定基准，并列举了用于设计未来基准的设计策略，这些基准能够有意义地反映在分布移动下稳健性的情况。

发布时间: 4/2/2025

查看原文

在RAG系统中的矛盾检测：评估LLM作为上下文验证器以提高信息一致性

作者: Vignesh Gokul, Srikanth Tenneti, Alwarappan Nakkiran

arXiv:2504.00180v1 类型: cross 摘要：检索增强生成（RAG）系统已成为增强大型语言模型（LLMs）的一种强大方法，使其能够获取最新的信息。然而，RAG系统中的检索步骤有时会显示包含矛盾信息的文件，特别是在新闻等快速发展的领域。这些矛盾会严重影响LLMs的性能，导致不一致或错误的输出。本研究通过两种方式来应对这一关键挑战。首先，我们提出了一种新的数据生成框架，以模拟RAG系统检索阶段可能出现的不同类型的矛盾。其次，我们评估了不同LLMs作为上下文验证器的鲁棒性，评估它们在检测检索文件集中矛盾信息方面的能力。我们的实验结果表明，即使是最先进的LLMs，上下文验证仍然是一个具有挑战性的任务，不同类型的矛盾在性能上差异显著。虽然较大的模型一般在矛盾检测方面表现更好，但不同的提示策略在不同任务和模型架构上的效果不同。我们发现，对于某些模型，思维链提示显示出明显的改进，但在其他模型中可能会阻碍性能，这突显了该任务的复杂性以及在RAG系统中需要更稳健的方法来进行上下文验证。

发布时间: 4/2/2025

查看原文

无尽的字对编码：突破预分割 barrier 屏障

作者: Craig W. Schmidt, Varshini Reddy, Chris Tanner, Yuval Pinter

arXiv:2504.00178v1 跨语言类型声明摘要：分词前生成（Pre-tokenization），许多现代分词流水线中的初始步骤，将文本分割成称为预词（pretokens）的较小单元，通常是在空格和标点符号处划分。尽管这一过程鼓励将完整的单独词汇作为词元，但大多数分词算法，如双向编码器表示（BPE），都会引入一个根本性的局限。具体来说，分词前生成导致语料库中的词元分布严重偏向常见的完整词汇。这种偏斜的分布限制了扩展到更大的词汇表所带来的好处，因为额外的词元出现的频率逐渐降低。为了克服这一障碍，我们提出了一种修改后的 BPE 算法 BoundlessBPE，放松了预词边界约束。我们的方法有选择地将两个完整的预词合并为一个更大的单位，我们称之为超词（superword）。超词不一定具有语义一致性。例如，预词 " of" 和 " the" 可能会被合并成超词 " of the"。这种合并策略相较于标准 BPE 能够在语料库中获得显著更均匀的词元分布，并更有效地压缩文本，文本每个词元的字节数大约增加 20%。

发布时间: 4/2/2025

查看原文

MetaCLBench：资源受限边缘设备上的元持续学习基准

作者: Sijia Li, Young D. Kwon, Lik-Hang Lee, Pan Hui

arXiv:2504.00174v1 交叉类型: cross 摘要:元持续学习（Meta-Continual Learning，Meta-CL）作为一种方法，通过在有限标注样本的基础上实现持续学习（Continual Learning，CL），旨在减少手动标注努力和系统资源需求，已逐渐成为备受青睐的技术。然而，尽管现有的方法在图像任务中取得了成功，但对于来自传感器系统的顺序时间序列数据，尤其是音频输入，其效果尚未得到探索。为解决这一差距，我们使用来自图像和音频模态的五个数据集，评估了三种网络架构下的六种代表性Meta-CL方法，进行了一项全面基准研究。我们开发了MetaCLBench，这是一个针对边缘设备的端到端元持续学习基准框架，用于评估系统开销，并分析在各种Meta-CL方法中性能、计算成本和内存需求之间的权衡。我们的研究结果表明，尽管许多Meta-CL方法能够在图像和音频模态中学习新类，但它们对边缘设备的计算和内存成本造成了显著的影响。此外，我们发现，在部署前基于源数据进行预训练和元训练过程可以提高Meta-CL的表现。最后，为了促进进一步的研究，我们为研究人员和机器学习从业者在资源受限环境中实现Meta-CL提供了实用指南，并公开了我们的基准框架和工具，以便在准确性和系统级别指标上进行公平评估。

发布时间: 4/2/2025

查看原文

通过外包训练的重复执行进行后门检测

作者: Hengrui Jia, Sierra Wyllie, Akram Bin Sediq, Ahmed Ibrahim, Nicolas Papernot

arXiv:2504.00170v1 跨越类型：交叉摘要：将机器学习模型的训练外包给云提供者是一种常见做法。这样做，客户可以从云的规模经济中获益，但同时也隐含了一种信任：服务器不应偏离客户的训练程序。恶意服务器可能会试图在模型中植入后门。在没有事先了解后门攻击及其触发机制的情况下，检测被植入后门的模型仍是一个具有挑战性的问题。在本文中，我们展示了如何通过让拥有多个云提供者的客户在多个服务器上复制一部分训练步骤，从而以类似于差异测试的方式检测训练程序的偏差。假设一些云提供的服务器是无害的，我们通过回.dooring（即后门攻击）所需的模型更新与干净训练所产生的更新之间的显著差异来识别恶意服务器。我们的方法最强大的优点之一是它适用于具有有限或根本没有本地计算能力来进行训练的客户；我们利用多个云提供者的存在来识别恶意更新，而无需昂贵的人工标注或大量的计算。我们在一项外包的监督学习任务中进行了演示，其中50%的云提供者植入了自己的后门，我们的方法能够正确识别其中的99.6%。实际上，我们的方法之所以成功，是因为它用基于异常检测的范例取代了现有方法的基于签名的范例。此外，我们的方法对于利用我们检测方案知识的适应性攻击者而言具有鲁棒性。

发布时间: 4/2/2025

查看原文

大规模语言模型进行“推理”能提高识别、生成和重新框定无用想法的能力吗？

作者: Yilin Qi, Dong Won Lee, Cynthia Breazeal, Hae Won Park

arXiv:2504.00163v1 类型: cross 摘要: 认知重框是认知行为疗法（CBT）的核心元素之一，它通过寻找积极意义来重新解释负面经验。近年来，大型语言模型（LLMs）通过基于推理的策略展现了改进的性能。这激发了一种有前途的方向，即将LLMs的推理能力用于改善CBT和认知重框，通过模拟批判性思维的过程，有可能更有效地识别、生成和重框认知扭曲。在本工作中，我们研究了几种推理方法的作用，包括预训练的推理LLMs以及如CoT和自我一致性等增强推理策略，在提升LLMs执行认知重框任务的能力方面的作用。我们发现，即使应用于“过时”的LLMs如GPT-3.5，增强推理方法也始终优于最先进的预训练推理模型，在识别、生成和重框无用想法方面表现更优。

发布时间: 4/2/2025

查看原文

精确动作 spotting: 通过动态标签分配解决标签的时间对齐问题

作者: Masato Tamura

arXiv:2504.00149v1 标题类型: cross 摘要: 精确的动作检测因其潜在的应用前景而吸引了大量关注。尽管现有的方法通过采用精心设计的模型架构实现了显著的性能提升，但它们忽视了一个重大挑战：地真实标签中固有的时间不对齐问题。这种时间不对齐现象发生在标记为包含事件的帧并不准确地与实际事件时间对齐时，通常是由于人工注释错误或在邻近帧间精确识别事件边界固有的困难所致。为解决这一问题，我们提出了一种新颖的动力标签分配策略，在训练过程中允许预测具有与地真实动作时间的时间偏移，从而确保一致的动作检测。我们的方法将空间域中用于对象检测的最小成本匹配的概念扩展到了时间域。通过基于预测动作类别得分和时间偏移计算匹配成本，我们的方法动态地将标签分配给最有可能的预测，即使这些预测的时间与地真实时间有所不同，也能够缓解标签中时间不对齐的负面影响。我们在广泛进行的实验中展示了，我们的方法在条件允许的情况下达到了最先进的性能，特别是在事件通过视觉明显区分且标签的时间不对齐现象普遍存在的情况下。

发布时间: 4/2/2025

查看原文

洛伦兹时空同构网络

作者: Srinitish Srinivasan, Omkumar CU

arXiv:2504.00142v1 Announce Type: cross 摘要：我们介绍了一种名为Lorentzian图同构网络（LGIN）的新颖图神经网络（GNN），它设计用于在双曲空间中操作，并利用Lorentzian模型来增强图表示学习。现有的GNN主要在欧几里得空间中操作，这可能会限制它们捕捉复杂图中固有的分层和多关系结构的能力。LGIN通过引入曲率意识聚合函数来解决这个问题，这些函数保留了Lorentzian度量张量，通过提出一种新的更新规则来确保嵌入保持在双曲空间中，该更新规则有效地捕捉了局部邻域交互和全局结构特性，从而使LGIN能够区分非同构图，其表达能力至少与Weisfeiler-Lehman测试相当。通过对包括分子和蛋白质结构在内的九个基准数据集进行广泛评估，LGIN在所有比较中均优于或与最先进的GNN相当，展示了其在建模复杂图结构中的稳健性和有效性。据我们所知，这是首次将强大图神经网络的概念扩展到黎曼流形中，为未来在双曲图学习方面的进步铺平了道路。我们论文的代码可以在 https://github.com/Deceptrax123/LGIN 查找。

发布时间: 4/2/2025

查看原文