arXiv 论文列表

作者: Guangjin Pan, Kaixuan Huang, Hui Chen, Shunqing Zhang, Christian H\"ager, Henk Wymeersch

arXiv:2505.10134v1 宣布类型: cross 摘要: 精确和鲁棒的本地化是新兴5G和6G应用的关键使能器，包括自动驾驶、扩展现实(XR)和智能制造。尽管数据驱动的方法显示出潜力，但现有的大多数模型需要大量的标注数据，并且很难在不同部署场景和无线配置之间进行泛化。为了解决这些限制，我们提出了一种基于基础模型的解决方案，专门用于无线定位。我们首先分析了不同自我监督学习(SSL)任务如何根据信息瓶颈(IB)理论获取通用和任务特定的语义特征。在此基础上，我们为所提出的大型无线定位模型(LWLM)设计了一种预训练方法。具体来说，我们提出了一个SSL框架，共同优化三个互补的目标：(i) 空间-频率掩蔽信道建模(SF-MCM)，(ii) 领域变换不变性(DTI)，和(iii) 位置不变的对比学习(PICL)。这些目标从多个角度共同捕捉无线信道的潜在语义。我们还为关键下游任务设计了轻量级解码器，包括到达时间(TOA)估计、到达角度(AOA)估计、单基站(BS)定位和多基站定位。全面的实验结果证实，LWLM在所有定位任务中都优于基于模型的和监督学习基线。特别是，LWLM在没有预训练的情况下超越了变压器模型26.0%到87.5%，并且在标签限制的微调和未见过的BS配置下表现出强大的泛化能力，证实了其作为无线定位基础模型的潜力。

发布时间: 5/16/2025

查看原文

边缘设备上具有领域异质性的鲁棒联邦学习

作者: Huy Q. Le, Latif U. Khan, Choong Seon Hong

arXiv:2505.10128v1 宣告类型: cross 摘要: 联邦学习（FL）允许分布式边缘设备在确保数据隐私的同时进行协作训练，使其成为敏感隐私应用的流行解决方案。然而，FL面临着统计异质性的重大挑战，特别是域异质性，这阻碍了全局模式的收敛。在本研究中，我们引入了一种新的框架，通过在域异质性下改进FL全局模型的泛化能力来解决这一挑战，使用原型增强。具体地，我们提出了FedAPC（联邦增强原型对比学习），这是一种基于原型的FL框架，旨在增强特征多样性和模型鲁棒性。FedAPC 利用来自增强数据均值特征的原型来捕获更丰富的表示。通过使局部特征与全局原型对齐，我们使模型能够学习有意义的语义特征，同时减少对任何特定域的过拟合。Office-10 和 Digits 数据集上的实验结果表明，我们的框架优于现有最佳基线，展现了优越的性能。

发布时间: 5/16/2025

查看原文

你需要的是合成任务增强

作者: Guillaume Godin

arXiv:2505.10120v1 类别: cross 摘要: 将基于规则的模型如随机森林注入可微神经网络框架仍然是机器学习中的一个开放挑战。近期的进步表明，预训练模型可以生成高效的分子嵌入。然而，这些方法通常需要大量的预训练以及额外的技术，如结合后验概率，来提升性能。在我们的研究中，我们提出了一种新的策略，联合训练一个单一的图变换器神经网络，用于同时处理稀疏的多任务分子属性实验目标和从使用Osmordred分子描述符训练的XGBoost模型派生的合成目标。这些合成任务作为独立的辅助任务。我们的结果表明，在所有19个分子属性预测任务中均实现了一致且显著的性能提升。在19个目标中的16个上，多任务图变换器超越了单任务的XGBoost学习器。这表明，合成任务增强是提高多任务分子属性预测中神经网络模型性能的有效方法，而无需注入特征或预训练。

发布时间: 5/16/2025

查看原文

EmbodiedMAE：统一的机器人Manipulation多模态3D表示

作者: Zibin Dong, Fei Ni, Yifu Yuan, Yinchuan Li, Jianye Hao

arXiv:2505.10105v1 Announce Type: cross 摘要：我们提出了一种统一的3D多模态表示EmbodyMAE，用于机器人操作。当前的方法在训练数据集和机器人操作任务之间存在显著的数据域差距，同时缺乏能够有效整合3D信息的模型架构。为克服这些限制，我们使用高质量的深度图和点云增强了DROID数据集，构建了DROID-3D作为3D沉浸式视觉研究的重要补充。然后，我们开发了EmbodyMAE，这是一种多模态掩蔽自编码器，通过随机掩蔽和跨模态融合同时学习RGB、深度和点云模态的表示。在DROID-3D上训练后，EmbodyMAE在70个模拟任务和两个机器人平台上的20个真实世界机器人操作任务中，在训练效率和最终性能上均优于最先进的视觉基础模型（VFMs）。该模型展示了随规模增长的强大扩展性，促进从三维输入中获得有效的策略学习。实验结果确立了EmbodyMAE作为可靠的一体化3D多模态VFMs在基于AI的系统中的地位，尤其是在精确的桌面操作环境中，空间感知至关重要。

发布时间: 5/16/2025

查看原文

LAV：由音频驱动的动态视觉生成——基于神经压缩和StyleGAN2

作者: Jongmin Jung, Dasaem Jeong

arXiv:2505.10101v1 类型: cross 摘要：本文介绍了LAV（Latent Audio-Visual）系统，该系统将EnCodec的神经音频压缩与StyleGAN2的生成能力相结合，以预先录制的音频为驱动，产生视觉动态输出。与以往依赖显式特征映射的工作不同，LAV使用EnCodec嵌入作为潜在表示，并通过随机初始化的线性映射直接转换为StyleGAN2的风格潜在空间。这种方法保留了转换中的语义丰富性，使得音频-视觉翻译更加细腻且语义上一致。该框架展示了使用预训练音频压缩模型进行艺术和计算应用的潜力。

发布时间: 5/16/2025

查看原文

基于空间聚类的碰撞避免 homogeneous 任务多机器人任务分配

作者: Rathin Chandra Shit, Sharmila Subudhi

arXiv:2505.10073v1 宣告类型: cross 摘要：本文提出了一种新的框架，该框架结合了多机器人任务分配（MRTA）和碰撞避免，针对工业环境中进行的同质测量任务。我们提出的空间聚类同时解决了任务分配问题并处理碰撞风险，通过对工作空间进行划分，为每个机器人定义可区分的操作区域。为了划分任务站点并为相应聚类内的机器人路径调度，我们使用了K-means聚类和2-Opt算法。所展示的框架显示出良好的性能，与最佳方法相比，时间减少了高达93%（从17.62秒减少到1.24秒），且解决方案质量提高了高达7%。我们的方法还从根本上消除了比较方法中持续存在的所有碰撞点。从理论上分析，空间分区在许多任务需要分布到稀疏地理区域的情况下，统一了看似分离的任务分配和碰撞避免问题。最终，本文的研究成果对于那些既要追求计算效率又要避免碰撞的任务具有重要的实际意义。

发布时间: 5/16/2025

查看原文

暗AI：未对齐AI模型不断增长的威胁

作者: Michael Fire, Yitzhak Elbazis, Adi Wasenstein, Lior Rokach

arXiv:2505.10066v1 交叉公告类型: cross 摘要: 大型语言模型（LLMs）迅速重塑现代生活，推进了从医疗保健到教育以及更广泛的多个领域的发展。然而，伴随而来的是一个重大的威胁：这些模型对“越狱”攻击的易感性。LLMs 核心的脆弱性来源于它们学习的数据本身。只要训练数据包含未经筛选、有问题或“暗网”内容，模型就不可避免地会学到不良模式或弱点，从而使用户能够规避其预期的安全控制。我们研究识别了由故意未设伦理护栏或通过“越狱”技术修改而设计的“暗网”LLMs 模型所带来的日益增长的威胁。在我们的研究中，我们发现了一种通用的“越狱”攻击，有效地破坏了多款最先进的模型，使它们能够几乎回答任何问题并在请求时生成有害输出。我们攻击的主要思想在上线超过七个月前就已公布。然而，在测试的许多 LLMs 中，它们仍然对这种攻击易感。尽管我们做出了负责任的披露努力，但主要 LLM 提供商的回应往往不足，凸显了行业在人工智能安全方面存在的令人担忧的差距。随着模型训练变得更加易于获取且价格低廉，并且开源的 LLMs 数量增加，其被广泛滥用的风险也在增加。若不采取果断干预措施，LLMs 可能会继续使危险知识的访问民主化，所带来的风险将超过预期。

发布时间: 5/16/2025

查看原文

PsOCR：低资源普什图语言光学字符识别大型多模态模型基准测试

作者: Ijazul Haq, Yingjie Zhang, Irfan Ali Khan

arXiv:2505.10055v1 交叉类型: cross 摘要：本文评估了大型多模态模型（LMMs）在低资源普什图语光学字符识别（OCR）中的性能。普什图语的自然语言处理（NLP）面临着诸多挑战，因为其书写体为连笔字且缺乏结构化的数据集。为了解决这一问题，我们开发了一个合成的普什图语OCR数据集PsOCR，包含一百万张图像，并进行了边界框标注，适用于训练和评估基于不同架构的模型，包括卷积神经网络（CNNs）和变换器。PsOCR涵盖了1000种独特的字体家族、颜色、图像大小和布局的变体。为评估多个LMMs的性能，我们选择了10,000张图像作为基准子集，其中包括七个开源模型：DeepSeek的Janus、InternVL、MiniCPM、Florence和Qwen（3B和7B），以及四个闭源模型：GPT-4o、Gemini、Claude和Grok。实验结果表明，Gemini在所有模型中表现最佳，而在开源模型中，Qwen-7B脱颖而出。这项工作为当前LMMs在普什图语OCR任务中的能力和局限性提供了有价值的评估，并为进一步研究不仅在普什图语OCR，还包括其他类似书写体（如阿拉伯语、波斯语和乌尔都语）的研究奠定了基础。PsOCR可在https://github.com/zirak-ai/PashtoOCR找到。

发布时间: 5/16/2025

查看原文

使用可解释人工智能和 stacking 集成方法的金融欺诈检测

作者: Fahad Almalki, Mehedi Masud

arXiv:2505.10050v1 宣布类型: cross 摘要: 传统的机器学习模型往往优先考虑预测准确性，往往以牺牲模型的透明度和可解释性为代价。缺乏透明度使得组织难以遵守监管要求，并获得利益相关者的信任。在本研究中，我们提出了一种欺诈检测框架，该框架结合了广泛使用的梯度提升模型堆叠集成：XGBoost、LightGBM 和 CatBoost。此外，我们使用可解释的人工智能（XAI）技术来增强模型决策的透明度和可解释性。我们使用 SHAP（SHapley Additive Explanations）进行特征选择，以识别最重要的特征。为进一步解释模型的预测结果，我们使用了局部可解释的模型无偏解释（LIME）、部分依赖图（PDP）以及排列特征重要性（PFI）。我们使用包含超过 590,000 个实际交易记录的 IEEE-CIS 欺诈检测数据集来评估所提出模型。该模型实现了高精度，准确率为 99%，AUC-ROC 得分为 0.99，并且优于几种近期相关方法。这些结果表明，在保持预测准确性的同时实现透明的可解释性是可能的，并且可能在金融欺诈检测中带来更符合道德且值得信赖的解决方案。

发布时间: 5/16/2025

查看原文

通过使用合成语义洞察进行训练以增强文本到图表检索

作者: Yifan Wu, Lutao Yan, Yizhang Zhu, Yinan Mei, Jiannan Wang, Nan Tang, Yuyu Luo

arXiv:2505.10043v1 宣告类型: cross 摘要：图表对于数据挖掘和决策至关重要。文本到图表检索系统在商业智能（BI）中变得越来越重要，用户需要找到与其分析需求相关的图表。这些需求可以分为具体的查询（明确规定的）和模糊的查询（更具探索性）——这两种查询都需要理解图表的语义和上下文。然而，现有的文本到图表检索解决方案往往无法捕捉到图表的语义内容和上下文信息，主要原因是对图表缺少全面的元数据（或语义洞察）。为了弥补这一不足，我们提出了一种训练数据开发管道，该管道能够自动为图表合成层次结构的语义洞察，涵盖视觉模式（以视觉为导向）、统计属性（以统计为导向）和实际应用（以任务为导向），从而为69,166张图表生成了207,498条语义洞察。基于这些信息，我们训练了一个基于CLIP的模型——ChartFinder，以更好地理解图表进行文本到图表检索。我们的方法在训练过程中利用丰富的语义洞察，开发了一个能够理解图表的视觉和语义方面的模型。为了评估文本到图表检索性能，我们为该任务构建了第一个基准——CRBench，其中包括21,862张图表和326条来自实际BI应用的真实文本查询，以及由众包工人验证的正确标签。实验表明，在各种应用场景下，ChartFinder在文本到图表检索任务中显著超过了现有方法。对于精确查询，ChartFinder在NDCG@10上的表现高达66.9%，比最先进的模型高出11.58%。在模糊查询任务中，我们的方法也显示出了持续的改进，平均指标提升了约5%。

发布时间: 5/16/2025

查看原文