arXiv 论文列表

基于多变量分解和噪声减少结合的混合预测模型增强Black-Litterman投资组合

作者: Ziye Yang, Ke Lu

arXiv:2505.01781v1 交叉公告类型：cross 摘要：传统的均值-方差模型受限于对输入参数的敏感性和灵活性不足。相比之下，通过整合市场均衡收益率和投资者的主观观点，布莱克-利特曼模型受到了广泛关注。本文提出了一种结合奇异谱分析（SSA）、多变量对齐经验模式分解（MA-EMD）和时间卷积网络（TCNs）的新型混合深度学习模型，旨在提高资产价格预测的准确性，从而增强布莱克-利特曼模型生成主观观点的能力。实验结果表明，噪声减少预处理可以提高模型的准确性，提出的模型的预测性能显著优于三种多变量分解基准模型。我们使用纳斯达克100指数的20只代表性股票构建了一个投资组合。通过结合混合预测模型和布莱克-利特曼模型，生成的投资组合在短期内的表现和风险控制能力优于均值-方差模型、等权重模型和市值加权模型。

发布时间: 5/6/2025

查看原文

受限速率闭环分布式ISAC系统：一种自编码器方法

作者: Guangjin Pan, Zhixing Li, Ay\c{c}a \"Oz\c{c}elikkale, Christian H\"ager, Musa Furkan Keskin, Henk Wymeersch

arXiv:2505.01780v1 闭环分布式多传感器综合感知与通信(ISAC)系统类型:交叉主题摘要: 在闭环分布式多传感器综合感知与通信(ISAC)系统中，性能通常取决于在带宽受限的网络中传输高维传感器观测数据。本文首先提出了一种适用于带宽受限的闭环分布式ISAC系统的通用框架，然后提出了一种基于自编码器的观测压缩方法，以克服有限传输容量带来的约束。在此框架基础上，我们通过使用闭环线性二次调节器(LQR)系统进行案例研究，分析了观测、压缩和状态维度之间的相互作用对重建精度、状态估计误差和控制性能的影响。在多传感器场景中，我们的研究结果进一步表明，最优资源配置最初优先考虑噪声较低的传感器，直到压缩达到无损状态，之后资源重新分配给噪声较高的传感器。

发布时间: 5/6/2025

查看原文

一种由大语言模型赋能的低分辨率视觉系统，用于设备端的人类行为理解

作者: Siyang Jiang, Bufang Yang, Lilin Xu, Mu Yuan, Yeerzhati Abudunuer, Kaiwei Liu, Liekang Zeng, Hongkai Chen, Zhenyu Yan, Xiaofan Jiang, Guoliang Xing

arXiv:2505.01743v1 交叉公告类型摘要：大型视觉语言模型（LVLMs）的快速发展提供了超越传统标注的潜力，能够在低分辨率视觉系统（如深度、热成像和红外）中生成更丰富、更详细的设备上人类行为理解（HBU）描述。然而，现有的大型视觉语言模型方法无法很好地理解低分辨率数据，因为它们主要是为高分辨率数据（如RGB图像）设计的。一个快速的修复方法是标注大量低分辨率数据，但需要大量的劳动密集型标注工作。在这篇论文中，我们提出了一种新型、节省劳动力的系统Llambda，旨在支持低分辨率HBU。核心思想是利用有限的有标签数据和大量的无标签数据来引导LLMs生成具有信息性的描述，这些描述可以与原始数据结合使用，以有效微调LVLM模型以理解和解释低分辨率视频中的HBU。首先，我们提出了一个对比导向的数据标注器，可以从长的低分辨率视频中捕获行为相关的信息，并通过对比学习生成高质量的伪标签以标注无标签数据。其次，我们提出了一种物理知识引导的描述生成器，它利用空间和时间一致性检查来减轻伪标签中的错误，从而提高LLMs对序列数据的理解能力，并生成高质量的视频描述。最后，为确保设备可用性，我们采用了基于LoRA的高效微调方法，使LVLMs适应低分辨率数据。我们使用地区规模的现实测试床和三个不同的低分辨率数据集对Llambda进行了评估，实验结果表明，Llambda在平均BERT评分上比几种最先进的LVLM系统高至40.03%。

发布时间: 5/6/2025

查看原文

PeSANet：编码物理的谱注意力网络用于模拟由偏微分方程支配的复杂系统

作者: Han Wan, Rui Zhang, Qi Wang, Yang Liu, Hao Sun

arXiv:2505.01736v1 宣告类型: cross 摘要: 准确地建模和预测受偏微分方程（PDE）支配的复杂系统在各个科学和工程领域中至关重要。然而，传统的数值方法在现实世界场景中因物理法则不完全或未知而捉襟见肘。与此同时，当面对稀缺的观测数据和捕捉局部和全局特征的挑战时，机器学习方法往往无法有效泛化。为此，我们提出了物理编码谱注意力网络（PeSANet），该网络整合局部和全局信息，以有限数据和不完整的物理先验预测复杂系统。该模型由两个关键组件组成：一个物理编码块，利用严格的约束从有限数据中近似局部微分算子；以及一个谱增强块，在频域中捕捉长程全局依赖关系。具体而言，我们引入了一种新颖的谱注意力机制来建模谱间的相互关系并学习长程空间特征。实验结果表明，PeSANet在所有评价指标上都优于现有方法，尤其是在长期预测准确性上表现尤为突出，为模拟有限数据和不完整物理法则下的复杂系统提供了有前景的解决方案。

发布时间: 5/6/2025

查看原文

基于高效舍里希值的大型语言模型非均匀剪枝

作者: Chuan Sun, Han Yu, Lizhen Cui

arXiv:2505.01731v1 剪枝类型：交叉摘要：剪枝大型语言模型（LLMs）是一种有希望的解决方案，可以在减小模型大小和计算复杂性的同时保持性能。传统的分层剪枝方法通常采用在整个层中均匀的稀疏性方法，这导致性能不佳，因为模型中各个变压器层的重要性差异没有得到考虑。为此，我们提出了基于Shapley值的非均匀剪枝（\methodname{}）方法用于LLMs。该方法量化了每个变压器层对整体模型性能的贡献，从而能够为不同的层分配定制的剪枝预算，保留关键参数。为了进一步提高效率，我们设计了基于滑动窗口的Shapley值近似方法。与精确的SV计算方法相比，该方法显著减少了计算开销。在包括LLaMA-v1、LLaMA-v2和OPT等多种LLMs上的广泛实验表明了所提出方法的有效性。结果表明，非均匀剪枝显著提高了剪枝模型的性能。值得注意的是，与SparseGPT在70%稀疏性下的表现相比，\methodname{}分别在LLaMA-7B和LLaMA-13B上实现了 perplexity（PPL）的减少，分别为18.01%和19.55%。

发布时间: 5/6/2025

查看原文

PASCAL：基于脉冲累积和自适应分层激活的精确高效ANN-SNN转换

作者: Pranav Ramesh, Gopalakrishnan Srinivasan

arXiv:2505.01730v1 类型: cross 摘要: 自从稀疏累加操作取代了耗电的乘加操作以来，脉冲神经网络（SNNs）已经被提出作为一种比人工神经网络（ANNs）更节能的替代方案。ANN-SNN转换是一种广泛使用的方法，可以实现与ANNs相媲美的准确度的深度SNNs。最近，\citeauthor{bu2023optimal} 提出了Quantization-Clip-Floor-Shift（QCFS）激活作为ReLU的替代品，以在ANN-SNN转换过程中最大限度地减少准确度损失。然而，SNN推理需要大量时间步来匹配现实世界数据集的源ANN的准确度。在这项工作中，我们提出了PASCAL，它可以以这样的方式进行ANN-SNN转换，使得结果的SNN在数学上等同于具有QCFS激活的ANN，从而以最少的推理时间步获得类似于源ANN的相似准确度。此外，我们提出了一种系统的方法，在逐层基础上配置QCFS激活的量化步长，有效地确定转换SNN的每层的最佳时间步数量。我们的结果显示，使用PASCAL获得的ResNet-34 SNN在ImageNet上的准确度约为74%，与现有方法相比，推理时间步的数量减少了64倍。

发布时间: 5/6/2025

查看原文

RoBridge：连接认知与执行的分级架构用于通用机器人操作

作者: Kaidong Zhang, Rongtao Xu, Pengzhen Ren, Junfan Lin, Hefeng Wu, Liang Lin, Xiaodan Liang

arXiv:2505.01709v1 交叉公告类型摘要：在开放性和多样性的场景中操作机器人是机器人研究和应用的重要方向。尽管自然语言处理和大型多模态模型的近期进展增强了机器人理解和执行复杂指令的能力，但在开放环境中，机器人操作仍然面临着程序技能难题和声明技能难题。现有方法往往在认知能力和执行能力之间做出妥协。为了解决这些问题，本文提出了一种用于通用机器人操作的分层智能架构 RoBridge。RoBridge 由基于大规模预训练视觉-语言模型（VLM）的高层认知规划器（HCP）、作为符号桥梁的服务不变可操作表示（IOR）以及通用体化代理（GEA）组成。RoBridge 维持了 VLM 的声明技能，并释放了强化学习的程序技能，有效地弥合了认知和执行之间的差距。与现有基线相比，RoBridge 在新任务上的性能显著提升，仅使用每任务五个真实世界数据样本，在模拟到现实的泛化中实现了 75% 的成功率和 83% 的平均成功率。这项工作代表了将认知推理与物理执行集成到机器人系统中的一个重要步骤，为通用机器人操作提供了一个新的范式。

发布时间: 5/6/2025

查看原文

基于组件的公平性在贝叶斯网络指导下的一种元学习面属性分类中

作者: Yifan Liu, Ruichen Yao, Yaokun Liu, Ruohan Zong, Zelin Li, Yang Zhang, Dong Wang

arXiv:2505.01699v1 宣布类型: cross 摘要：面部识别技术在各种应用（例如访问控制和个性化广告）中的广泛应用迫切需要重视公平性。尽管先前的努力主要集中在人口统计公平性上，但个体生物面部组件的公平性仍未被探索。在本文中，我们专注于面部组件公平性，这是一种由生物面部特征定义的公平性概念。据我们所知，我们的工作是第一个在生物特征层面减轻面部属性预测偏差的工作。在本工作中，我们识别出在优化面部组件公平性过程中存在两个关键挑战：属性标签稀缺性和属性间依赖性，这两个问题限制了先前方法减轻偏差的有效性。为了应对这些问题，我们提出了**B**ayesian **N**etwork-informed **M**eta **R**eweighting (BNMR) ，该方法结合了一个贝叶斯网络校准器，以指导基于元学习的自适应样本加权过程。在我们方法的训练过程中，贝叶斯网络校准器动态跟踪模型偏差，并对面部组件属性编码先验概率，以克服上述挑战。为了证明我们方法的有效性，我们在大规模真实人类面部数据集上进行了广泛的实验。我们的结果显示，BNMR能够在多个方面持续优于最近的面部偏差减轻基准。此外，我们的结果表明，面部组件公平性对通常考虑的人口统计公平性（例如**性别**）具有积极影响。我们的研究结果为新的面部组件公平性研究途径铺平了道路，表明面部组件公平性可以作为人口统计公平性的潜在替代目标。我们的工作代码已公开可用，可从[https://github.com/yliuaa/BNMR-FairCompFace.git]下载。

发布时间: 5/6/2025

查看原文

基于图的可解释模型在多模态生物医学数据集成中的应用：技术综述与基准测试

作者: Alireza Sadeghi, Farshid Hajati, Ahmadreza Argha, Nigel H Lovell, Min Yang, Hamid Alinejad-Rokny

arXiv:2505.01696v1 类型: cross 摘要：整合包括成像、组学和临床记录在内的异质生物医学数据支持准确诊断和个性化护理。基于图的模型通过捕捉空间和关系结构来融合这种非欧几里得数据，但临床应用需要监管机构可接受的可解释性。我们介绍了第一个可解释的基于图的模型的技术综述，涵盖了2019年1月至2024年9月间发表的26项研究。多数研究针对疾病分类，尤其是癌症，并依赖于来自简单相似度度量的静态图，而原生的图解释器很少；后适应方法如梯度显著性和SHAP方法主导。我们将现有方法分成四种解释性家族，概述了趋势例如图内的图层次结构、知识图边和动态拓扑学习，并进行了实用基准测试。使用阿尔茨海默病队列，我们比较了敏感性分析、梯度显著性、SHAP和图掩码。SHAP和敏感性分析恢复了最广泛已知的AD途径和Gene-Ontology术语，而梯度显著性与图掩码揭示了互补的代谢和运输签名。置换检验显示所有四种方法都优于随机基因集，但具有不同的权衡：SHAP和图掩码提供更深入的生物学但计算成本更高，而梯度显著性和敏感性分析虽然更快但更粗糙。我们还提供了一个逐步流程图，涵盖了图构建、解释器选择和资源预算，以帮助研究人员平衡透明度和性能。这项审查综合了多模态医学中可解释图学习的状态，基准了领先技术，并展望了未来方向，从高级XAI工具到未充分研究的疾病，为方法开发者和转化科学家提供了简明参考。

发布时间: 5/6/2025

查看原文

拓扑感知 CLIP few-shot 学习

作者: Dazhi Huang

arXiv:2505.01694v1 交叉类型公告摘要：有效地适应大型视觉-语言模型（VLMs）如CLIP进行少样本学习，在保留预训练知识和任务特定适应之间提出了挑战。现有方法往往忽视了VLM潜在空间内的有价值的结构信息。我们介绍了一种拓扑意识调优方法，将表示拓扑分歧（RTD）集成到任务残差（TR）框架中。通过使用结合RTD和交叉熵损失显式对齐视觉和文本表示的拓扑结构，同时冻结基础VLM编码器，我们的方法提高了少样本性能。我们仅优化轻量级的任务残差参数，有效地利用了拓扑信息。在6个不同的基准数据集中，我们的方法展示了显著的提升，在少样本设置中相对于相关的基线方法，平均准确率提高了1-2%。本研究提出了一个有效策略，通过引入拓扑对齐，来增强VLM的少样本能力。

发布时间: 5/6/2025

查看原文