arXiv 论文列表

使用合成数据增强长时重识别鲁棒性：一种比较分析

作者: Christian Pionzewski, Rebecca Rademacher, J\'er\^ome Rutinowski, Antonia Ponikarov, Stephan Matzke, Tim Chilla, Pia Schreynemackers, Alice Kirchheim

arXiv:2504.18286v1 宣告类型: cross 摘要: 本文探讨了合成训练数据使用对再识别条件下材料磨损与老化预测的影响。测试了不同的实验设置和画廊集扩展策略，并分析其对未来老化再识别主题性能的影响。通过使用不断更新的画廊，我们逐步考虑材料老化因素，将平均Rank-1准确率提高了24%。此外，使用10%的人工训练数据进行训练的模型，与仅使用真实世界数据训练的模型相比，Rank-1准确率最多可提高13%，显著提升了保留数据上的泛化性能。最后，本文介绍了一个新的开源再识别数据集——pallet-block-2696。该数据集包含2,696张欧洲托盘图片，拍摄时间为4个月。在此期间，自然老化过程发生，部分托盘在使用过程中损坏。这些磨损过程显著改变了托盘的外观，为生成合成老化托盘或其它木质材料的数据集提供了可能。

发布时间: 4/28/2025

查看原文

听见风景：使用音频视觉分离器从声景中进行音视频生成与分离

作者: Minjae Kang, Martim Brand\~ao

arXiv:2504.18283v1 交叉类型: cross 摘要: 近期的视听生成模型在从音频生成图像方面取得了显著进展。然而，现有的方法主要集中在从单一类别的音频生成图像上，而无法生成混合音频中的图像。为了解决这个问题，我们提出了一种视听生成与分离模型（AV-GAS），用于从声景（包含多种类别的混合音频）中生成图像。我们的贡献包括三个方面：首先，我们提出了一个视听生成任务的新挑战，即给定多类别音频输入生成图像，并提出了一种使用视听分离器解决该任务的方法。其次，我们引入了一个新的视听分离任务，该任务涉及为混合音频输入中存在的每个类别生成单独的图像。最后，我们为视听生成任务提出了新的评估指标：类表示得分（CRS）和修改后的R@K。我们的模型在VGGSound数据集上进行了训练和评估。结果显示，我们的方法优于现 state-of-the-art，生成混合音频图像时 CRS 提高了 7%，R@2* 提高了 4%。

发布时间: 4/28/2025

查看原文

神经运算器在行人流动性中学习复杂偏微分方程遇到困难：霍金斯模型案例研究

作者: Prajwal Chauhan, Salah Eddine Choutri, Mohamed Ghattassi, Nader Masmoudi, Saif Eddin Jabari

arXiv:2504.18267v1 宣告类型: cross 摘要：本文研究了神经算子在学习Hughes模型解方面的限制，该模型是描述人群动力学的一阶双曲守恒律系统，其中涉及用描述行人密度的Fokker-Planck方程与eikonal型（哈密尔顿-雅可比类型）方程耦合。该Hughes模型属于一类非线性双曲系统，通常表现出复杂的解结构，包括激波和不连续性。在本研究中，我们评估了三种最先进的神经算子（傅里叶神经算子、小波神经算子和多小波神经算子）在各种具有挑战性的场景中的性能。具体来说，我们考虑了(1) 不连续和高斯初始条件以及(2) 多种边界条件，同时研究了不同数值方案的影响。我们的结果表明，在初始条件中不连续较少的简单场景中，这些神经算子表现良好，但在具有多个初始不连续和动态边界条件的复杂场景中，即使在这些复杂样本上进行了专项训练，它们也表现不佳。预测的解往往显得较为平滑，导致总变异减少并丢失重要的物理特征。这种平滑行为类似于Daganzo（1995）讨论的问题，其中引入人工扩散的模型被证明会在双曲系统中错过必要的特征，如激波。这些结果表明，当前的神经算子架构可能会引入意想不到的正则化效应，从而限制了其捕捉由不连续性支配的输运动力学的能力。此外，这些方法的普遍化到需要保留激波的人群交通应用中也引起了担忧。

发布时间: 4/28/2025

查看原文

深度受限的ASV导航与深度强化学习和有限感知

作者: Amirhossein Zhalehmehrabi, Daniele Meli, Francesco Dal Santo, Francesco Trotti, Alessandro Farinelli

arXiv:2504.18253v1 Announce Type: cross 摘要：自主水面车辆（ASVs）在海上作业中扮演着重要角色，但它们在浅水环境中的导航仍面临挑战，主要是由于动态干扰和深度限制。传统导航策略因传感器信息有限而难以应对，使得安全和高效的运行变得困难。在本文中，我们提出了一种深度限制下的自主水面车辆导航强化学习（RL）框架，该框架要求车辆在仅从向下发射的单波束回声仪（SBES）每次时间步骤获取一个深度测量值的情况下达到目标并避免不安全区域。为了增强环境感知，我们将高斯过程（GP）回归整合进RL框架，使智能体能够逐步从稀疏的声纳读数中估计海底深度图。这种方法通过提供更丰富的环境表示来改进决策。此外，我们展示了有效的仿真到现实的转移，确保训练策略在实际水生条件下具有良好泛化能力。实验结果验证了该方法在保持安全性的前提下提高ASV导航性能的能力。

发布时间: 4/28/2025

查看原文

基于事件的注视跟踪。2025基于事件的视觉研讨会

作者: Qinyu Chen, Chang Gao, Min Liu, Daniele Perrone, Yan Ru Pei, Zuowen Wang, Zhuo Zou, Shihang Tan, Tao Han, Guorui Lu, Zhen Xu, Junyuan Ding, Ziteng Wang, Zongwei Wu, Han Han, Yuliang Wu, Jinze Chen, Wei Zhai, Yang Cao, Zheng-jun Zha, Nuwan Bandara, Thivya Kandappu, Archan Misra, Xiaopeng Lin, Hongxiang Huang, Hongwei Ren, Bojun Cheng, Hoang M. Truong, Vinh-Thuan Ly, Huy G. Tran, Thuan-Phat Nguyen, Tram T. Doan

arXiv:2504.18249v1 事件型眼球追踪挑战公告类型：交叉摘要：本文是对2025年Event-Based Eye Tracking挑战的回顾，该挑战作为2025年CVPR事件型视觉研讨会的一部分组织进行。该挑战集中在通过处理事件相机记录的眼球运动来预测瞳孔中心的任务上。我们回顾并总结了挑战中排名靠前团队的创新方法，旨在推进未来的事件型眼球追踪研究。在每种方法中，我们都报告了准确性、模型大小和运算数量。此外，我们还在硬件设计的角度讨论了事件型眼球追踪。

发布时间: 4/28/2025

查看原文

多轮推理的高效单-pass训练

作者: Ritesh Goru, Shanay Mehta, Prateek Jain

arXiv:2504.18246v1 交叉公告类型摘要：训练大型语言模型（LLMs）在生成答案之前生成明确的推理已被证明可以提高它们在数学和编程等各种任务中的性能。然而，对多轮推理数据集进行LLMs微调提出了一个独特的挑战：LLMs必须生成不会包含在后续输入到LLM中的推理标记。这种差异阻碍了我们一次性处理整个对话——这在我们使用多轮非推理数据集进行微调时是很容易实现的优化。这篇论文提出了一种新方法，通过响应标记复制和一个自定义的注意力掩码来克服这个限制，该掩码施加了适当可见性的约束。我们的方法显著减少了训练时间，并允许高效地对多轮推理数据集进行微调。

发布时间: 4/28/2025

查看原文

基于时间域和频域的智能电表数据异常检测在配网研究中的应用

作者: Petar Labura, Tomislav Antic, Tomislav Capuder

arXiv:2504.18231v1 类型: cross 摘要: 在消费者侧低压配电网中广泛集成新技术创造了对配电系统运营商进行高级实时计算以估计网络条件的需要。近年来，基于机器学习和大数据分析的数据驱动模型出现在计算领域，利用从智能电表和其他先进测量基础设施获得的大数据集中的信息。然而，现有的数据驱动算法没有考虑到从智能电表收集的数据质量。它们缺乏内置的异常检测机制，无法根据异常数据实例的价值或上下文是否偏离常态来区分异常。本文专注于检测和减轻异常对有功和无功功率数据集消耗的影响的方法。它提出了一种基于孤立森林机器学习算法和快速傅里叶变换滤波的异常检测框架，该框架可以在时域和频域中工作，并且不受功率消耗数据中的孤立异常或上下文异常的影响。在分析对智能电表占有率高的配电网的重要性时，阐述了集成异常检测方法的重要性。

发布时间: 4/28/2025

查看原文

学习融合：多源数据的动态集成以实现准确的电池寿命预测

作者: He Shanxuan, Lin Zuhong, Yu Bolun, Gao Xu, Long Biao, Yao Jingjing

arXiv:2504.18230v1 Announce Type: cross 摘要：准确预测锂离子电池寿命对于确保电动车辆和智能电网等应用中的操作可靠性并减少维护成本至关重要。本研究提出了一种混合学习框架，用于精确预测电池寿命，该框架结合了动态多源数据融合和堆叠集成（SE）建模方法。通过利用来自美国国家航空航天局（NASA）、先进生命周期工程中心（CALCE）、麻省理工学院-斯坦福大学-丰田研究机构（TRC）以及镍钴铝（NCA）化学物质的异构数据集，基于熵的动态加权机制减轻了异构数据集之间的变化性。SE模型结合了岭回归、长短期记忆（LSTM）网络和极端梯度提升（XGBoost），有效地捕捉了时间依赖性和非线性退化模式。该模型实现了平均绝对误差（MAE）为0.0058、均方根误差（RMSE）为0.0092、确定系数（R2）为0.9839，相比现有基准模型，在R2上提升了46.2%，在RMSE上降低了83.2%。Shapley加法解释（SHAP）分析将不同放电容量（Qdlin）和测量温度（Temp_m）识别为关键老化指标。此可扩展、可解释的框架增强了电池健康管理，支持针对各种储能系统进行优化的维护和安全管理，从而有助于改进储能系统中的电池健康管理。

发布时间: 4/28/2025

查看原文

多粒度组合理表征视觉线索学习用于图像意图识别

作者: Yin Tang, Jiankai Li, Hongyu Yang, Xuan Dong, Lifeng Fan, Weixin Li

arXiv:2504.18201v1 交叉类型公告摘要：在社交媒体平台广泛存在的时代，个人经常分享能反映其意图和兴趣的照片，这些分享影响了个人的生活质量和社会的稳定性。传统的计算机视觉任务，如目标检测和语义分割，专注于具体的视觉表示，而意图识别则更多依赖于隐含的视觉线索。由于这些线索的广泛变化性和主观性带来了挑战，再加上表达抽象概念的类内多样性问题，例如“享受生活”，现有的方法通过手动设计代表性特征或将每个类从全局特征中构建原型来解决问题。然而，这些方法依然难以应对每种意图类别巨大的视觉多样性。在此论文中，我们提出了一种名为多粒度组成视觉线索学习（MCCL）的新方法，以应对这些挑战中的图像意图识别。我们的方法通过人认知的系统组成性将意图识别分解为视觉线索组成，并结合多粒度特征。我们采用类特定的原型来缓解数据不平衡问题。我们将意图识别视为一个多标签分类问题，通过图卷积网络将标签嵌入相关的先验知识注入其中。通过在Intentonomy和MDID数据集上的先进表现证明了我们的方法在提升现有方法的准确性的同时，还具有良好的解释性。我们的工作为未来探索复杂多样的人类表达形式的理解提供了尝试。

发布时间: 4/28/2025

查看原文

冰岛法律文本摘要中的语言模型对齐

作者: {\TH}\'orir Hrafn Har{\dh}arson, Hrafn Loftsson, Stef\'an \'Olafsson

arXiv:2504.18180v1 交叉公告类型: cross 摘要：在法律领域集成语言模型在简化流程和提高处理大量工作负载的效率方面具有巨大潜力。然而，法律文本的专业术语、含蓄的语言以及正式的风格可以带来重大的挑战。本研究探讨了基于偏好的训练技术，尤其是人类反馈强化学习和直接偏好优化，是否能够提高模型生成符合领域特定语言标准和用户偏好的冰岛法律摘要的性能。我们将经过偏好训练微调的模型与使用常规监督学习的模型进行比较。结果显示，偏好训练在生成摘要的法律准确性方面优于标准微调，但并未显著提升冰岛语言使用的整体质量。自动评估指标与人工评估之间的差异进一步强调了在法律领域开发语言模型时进行定性评估的重要性。

发布时间: 4/28/2025

查看原文