arXiv 论文列表

作者: Zhixuan Zhang, Xiaopeng Li, Qi Liu

arXiv:2505.07336v1 类型: cross 摘要: 背景减除（BGS）用于检测视频中的移动对象，并常用于物体跟踪和人体识别过程的初始阶段。然而，现有的利用深度学习的BGS技术在处理视频中的各种背景噪音时仍然面临挑战，包括光照变化、摄像机角度的改变以及空气湍流或摇晃的树木等干扰。为了解决这个问题，我们设计了一个基于刺猬神经网络（SNNs）的抗噪性和时间序列敏感性的刺猬自动编码器网络（SAEN-BGS），以增强前景和背景的分离效果。为了消除不必要的背景噪音并保留重要的前景元素，我们首先创建了连续刺猬卷积-反卷积块，这是SAEN-BGS解码器的基础构建块。此外，为了追求更高的能效，我们在ANN-to-SNN框架中引入了一种新颖的自我蒸馏刺猬监督学习方法，从而降低了能耗。在对CDnet-2014和DAVIS-2016数据集进行广泛实验后，我们的方法在复杂背景动态场景中展现出优于其他基线方法的分割性能。

发布时间: 5/13/2025

查看原文

动态标签增强与校准以应对嘈杂的电子健康记录

作者: Yuhao Li, Ling Luo, Uwe Aickelin

arXiv:2505.07320v1 类型: cross 摘要：医疗研究，特别是在预测患者结果方面，大量依赖于从电子健康记录（EHR）中提取的医疗时间序列数据，这些数据提供了丰富的患者历史信息。尽管进行了严谨的检查，标签错误在所难免，并且可能会显著阻碍对患者结果的准确预测。为了解决这一挑战，我们提出了一种基于注意力的动态校准和增强的时间序列噪声标签学习框架（ACTLL）。该框架利用两组件贝塔混合模型，根据每个类的适应度分布来识别确定性和不确定性实例集，并捕捉全局时间动态，同时动态校准不确定性集的标签或从确定性集中增强自信实例。在大规模EHR数据集eICU和MIMIC-IV-ED，以及UCR和UEA仓库中的多个基准数据集上的实验结果表明，我们的模型ACTLL已经达到了最先进的性能，特别是在高噪声水平下尤为如此。

发布时间: 5/13/2025

查看原文

公司如何管理人工智能的 environmental sustainability？关于绿色人工智能努力和监管的一项访谈研究

作者: Ashmita Sampatsing, Sophie Vos, Emma Beauxis-Aussalet, Justus Bogner

arXiv:2505.07317v1 Announce Type: 横向研究摘要：随着人工智能（AI）的应用日益增长，基于AI的软件及其对环境的负面影响已不容忽视，研究和减轻这种影响已成为一个重要研究领域。然而，目前尚不清楚在工业应用中采用AI时，环境可持续性发挥什么作用，以及AI法规如何影响工业中Green AI的实践和决策。因此，我们旨在研究工业从业者对Green AI的认知和管理。为此，我们总共对来自10个采用AI软件的不同组织的11名参与者进行了访谈。访谈探讨了三个主要主题：AI的应用、当前减轻AI的负面影响的努力，以及EU AI法案和企业可持续性报告指令（CSRD）的影响。我们的发现表明，在AI应用过程中，11名参与者中有9名主要注重商业效率，对环境可持续性的考虑较少。对AI环境影响的监测和减轻工作非常有限。只有1名参与者监测了负面的环境影响。关于实际采取的减轻措施，6名参与者表示没有采取任何行动，其他人偶尔提到了一些技术手段，如指令工程、采用较小的模型或不过度使用AI。对EU AI法案的知晓和遵守程度较低，仅有1名参与者报告了该法案的影响，而CSRD则主要推动了大型公司在可持续性报告方面的工作。总的来说，我们的发现反映了这些公司在可持续AI方面缺乏紧迫感和优先级。我们建议当前的法规效果不尽如人意，这对政策制定者具有重要意义。此外，还需要提高工业界的意识，同时也需要提供用户友好的技术和工具以促进Green AI实践。

发布时间: 5/13/2025

查看原文

面向协作专家委派的多Agent推理系统：一项探索性设计研究

作者: Baixuan Xu, Chunyang Li, Weiqi Wang, Wei Fan, Tianshi Zheng, Haochen Shi, Tao Fan, Yangqiu Song, Qiang Yang

arXiv:2505.07313v1 合作类型: 横跨领域摘要：为多智能体语言模型系统设计有效的协作结构以增强集体推理至关重要，但这一领域尚未得到充分探索。在本文中，我们系统地研究了以下三个关键设计维度如何影响协作推理性能：(1) 专业知识-领域对齐，(2) 合作范式（结构化工作流 vs. 多样性驱动的集成），(3) 系统规模。我们的研究发现，专业知识对齐的优势高度依赖于领域，证明在上下文推理任务中最为有效。此外，旨在整合多样化知识的合作方式始终优于刚性任务分解。最后，我们通过实证研究了具有专业知识细分的多智能体系统的扩展影响，并研究了计算权衡，突显了更高效通信协议设计的必要性。本工作为配置专业化的多智能体系统提供了具体指导，并确定了可扩展多智能体推理的关键架构权衡和瓶颈。该代码将在接受后提供。

发布时间: 5/13/2025

查看原文

HuB: 学习极端类人balancing

作者: Tong Zhang, Boyuan Zheng, Ruiqian Nai, Yingdong Hu, Yen-Jen Wang, Geng Chen, Fanqi Lin, Jiongye Li, Chuye Hong, Koushil Sreenath, Yang Gao

arXiv:2505.07294v1 类型: cross 摘要：人类身体展示了非凡的运动能力——例如在一腿站立或腿抬高超过1.5米处进行高踢——所有这些都需要精确的平衡控制。虽然最近的人形控制研究利用强化学习来跟踪人的动作以获取技能，但将这一范式应用于平衡密集型任务仍具挑战性。在这项工作中，我们识别了三个主要障碍：由于参考运动错误导致的不稳定性、由于形态不匹配导致的学习困难，以及由传感器噪声和未建模动力学引起的仿真实验室间差距。为了应对这些挑战，我们提出了一种统一框架HuB（人形平衡），该框架集成了参考运动细化、平衡意识策略学习和仿真实验室鲁棒性训练，每个组件都针对一个特定的挑战。我们在具有挑战性的准静态平衡任务中对Unitree G1人形机器人进行了验证，包括极端的一腿姿势，比如燕子平衡和李小龙的踢。即使在强烈的物理干扰下（如大力足球射门），我们的策略也能保持稳定，而基线方法则无法完成这些任务。项目网站：https://hub-robot.github.io

发布时间: 5/13/2025

查看原文

LLMs中语义保留与极端压缩：两者可以兼得吗？

作者: Stanislas Laborde, Martin Cousseau, Antoun Yaacoub, Lionel Prevost

arXiv:2505.07289v1 宣布类型: 交叉摘要：大型语言模型（LLM）部署的指数增长加剧了对高效模型压缩技术的需求，以减少计算和内存成本。虽然剪枝和量化显示出前景，但它们的结合潜力尚未得到充分探索。在本文中，我们研究了联合压缩，并探讨了如何战略性地结合剪枝和量化，以在单方法方法相比时，提供更优的性能-压缩比。鉴于准确评估LLM性能的挑战，我们解决了之前评估框架的关键限制，并引入了语义保留压缩率（SrCr），这是一种新型指标，量化了模型压缩和语义保留之间的权衡，促进剪枝-量化配置的优化。实验表明，我们推荐的组合平均在相同的理论压缩率下，相比仅量化模型，实现了20%的性能提升。

发布时间: 5/13/2025

查看原文

基于模态特定最优计划的结构导向药物设计导航

作者: Keyue Qiu, Yuxuan Song, Zhehuan Fan, Peidong Liu, Zhe Zhang, Mingyue Zheng, Hao Zhou, Wei-Ying Ma

arXiv:2505.07286v1 宣布类型：交叉摘要：基于结构的药物设计（SBDD）对于识别生物活性分子至关重要。近期的深度生成模型在几何结构建模方面面临挑战。瓶颈主要在于多模态中的扭曲概率路径——连续的3D位置和离散的2D拓扑——它们共同决定了分子几何结构。通过建立噪声调度决定扭曲概率路径的变分下界（VLB）的事实，我们在这个尚未充分探索的领域提出了VLB优化调度（VOS）策略，从而优化VLB作为SBDD的一个路径积分。我们的模型有效增强了分子几何结构和相互作用建模，实现了在CrossDock上达到95.9%的PoseBusters通过率，比强基线提高了超过10%，同时在保留高亲和力和在保留的测试集上进行了稳健的分子内有效性评估。

发布时间: 5/13/2025

查看原文

基于Spotify特征和音频波形谱图的卷积神经网络预测音乐轨道流行度

作者: Navid Falah, Behnam Yousefimehr, Mehdi Ghatee

arXiv:2505.07280v1 交叉类型: cross 摘要: 在数字流媒体环境中，艺术家和行业专家越来越难以预测音乐曲目的成功。本研究介绍了一种开创性的方法，该方法使用卷积神经网络（CNNs）和Spotify数据分析来预测音乐曲目的流行度。我们的方法利用了Spotify广泛的功能，包括基于音频波形频谱图的声学属性、元数据和用户参与度指标，以捕捉影响曲目流行度的复杂模式和关系。通过涵盖各种流派和人口统计学的大规模数据集，我们的基于CNN的模型在预测音乐曲目的流行度方面表现出色。此外，我们进行了广泛的实验以评估我们的模型在不同音乐风格和时间段的强度和适应性，结果表明F1分数达到了97%。本研究不仅为我们动态的数字音乐消费景观提供了宝贵的见解，还为音乐行业提供了先进的预测工具，用于评估和预测音乐曲目的成功。

发布时间: 5/13/2025

查看原文

奖励模型 robustness 对语言模型对齐的影响

作者: Jiwoo Hong, Noah Lee, Eunki Kim, Guijin Son, Woojin Chung, Aman Gupta, Shao Tang, James Thorne

arXiv:2505.07271v1 Announce Type: cross 摘要：布雷得里-特里（BT）模型在带有人类反馈的强化学习（RLHF）中的奖励建模中被广泛应用。尽管其效果很好，但使用BT模型损失训练的奖励模型（RMs）容易过度优化，从而在未见过的输入分布上丧失了泛化能力。在本文中，我们研究了RMs训练中的过度优化的原因及其在RLHF流程中的下游效应，强调了RMs在未见过的数据集上的分布鲁棒性的重要性。首先，我们表明隐藏状态范数过度分散是过度优化的主要来源。然后，我们提出了批次级别和零和正则化（BSR），以确保每个批次的奖励和为零中心化，限制极值幅度的奖励。我们通过四种过度优化场景评估了BSR在提高RMs鲁棒性方面的影响，在所有场景中，BSR都显示出更好的鲁棒性。随后，我们在RLHF训练中比较了普通BT模型和BSR，并实验证明了鲁棒的RMs更好地对齐了策略与黄金偏好模型。最后，我们将BSR应用于高质量的数据和模型，在8B规模上超越了最先进的RMs，增加了5%以上在复杂偏好预测任务中的性能。通过使用8B RMs进行RLOO训练，AlpacaEval 2.0 的生成长度减少了40%，同时赢率增加了7%，进一步强调了RMs的鲁棒性在RLHF训练中的影响。我们发布了代码、数据和模型：https://github.com/LinkedIn-XFACT/RM-Robustness。

发布时间: 5/13/2025

查看原文

CHD: 耦合层级扩散用于长远任务

作者: Ce Hao, Anxing Xiao, Zhiwei Xue, Harold Soh

arXiv:2505.07261v1 自动机类型：横向交叉摘要：基于扩散的过程计划器在短期任务上表现出强大的性能，但在复杂且长期的任务设置中经常失败。我们把失败归因于高层（HL）子目标选择和低层（LL）轨迹生成之间的松散耦合，这导致了不连贯的计划和性能退化。我们提出了一种耦合层次扩散（CHD）框架，该框架在同一统一的扩散过程中同时建模HL子目标和LL轨迹。共享分类器将LL反馈向上传递，使子目标在采样过程中自我校正。这种紧密的HL-LL耦合提高了轨迹的连贯性，并使长期扩散计划能够扩展。跨迷宫导航、桌面操作和家庭环境的实验表明，CHD始终优于平坦和层次扩散基线。

发布时间: 5/13/2025

查看原文