arXiv 论文列表

作者: Althaf Shajihan, Kirill Mechitov, Girish Chowdhary, Billie F. Spencer Jr

arXiv:2502.00194v1 宣告类型: cross 摘要: 铁路桥梁是美国货运铁路系统的关键组成部分，该系统每年运送超过该国40%的货物，并在经济中扮演着至关重要的角色。然而，不断老化的人行道基础设施和增加的列车交通带来了显著的安全隐患，并增加了服务中断的风险。美国铁路网络包括超过10万个铁路桥梁，平均每1.4英里轨道就有1座桥梁，其中钢桥梁占网络总桥梁长度的50%以上。早期识别和评估这些桥梁的损伤仍然是一个具有挑战性的任务。本研究提出了一种基于物理信息神经网络（PINN）的方法，用于识别钢桁架铁路桥梁的损伤。该提出的方法采用无监督学习方法，消除了监督方法通常需要的大规模数据集的需求。该方法利用列车车轮载荷数据和列车通过事件期间的桥梁响应，作为损伤识别的输入。PINN模型明确包含了线性时变（LTV）桥梁-列车系统的基本微分方程。该模型采用基于递归神经网络（RNN）的架构，结合了一个自定义的Runge-Kutta（RK）积分单元，专为基于梯度的学习设计。提出的方案更新了桥梁有限元模型，同时量化损伤程度并定位受影响的结构部件。通过对伊利诺伊州芝加哥的卡拉姆卡特桥进行模拟损伤场景的案例研究，展示了该模型在识别损伤并保持低假阳性率方面的有效性。此外，损伤识别管道设计可以无缝整合检测和无人机勘察的先验知识，也能够实现情境感知的更新和桥梁状况的评估。

发布时间: 2/4/2025

查看原文

从IID到非IID数据集的联邦学习理解：一项实验研究

作者: Jungwon Seo, Ferhat Ozgur Catak, Chunming Rong

arXiv:2502.00182v1 宣告类型: cross 摘要: 随着隐私问题和数据法规的日益增长，联邦学习（FL）已经成为一种在分散的数据源上训练机器学习模型的有前途的方法，而无需共享原始数据。然而，在FL中的一大挑战是客户端数据往往是非IID（非独立同分布的），导致与集中式学习相比性能降低。尽管已经提出了许多方法来解决这一问题，但这些方法的底层机制往往是从不同的角度被看待的。通过从梯度下降到FL，从IID到非IID数据设置的全面调查，我们发现客户端损失景观中的不一致性主要导致在非IID场景中的性能下降。从这一理解出发，我们观察到现有的方法可以分为两种主要策略：(i) 调整参数更新路径和(ii) 修改客户端损失景观。这些发现为解决FL中的非IID挑战提供了一个清晰的视角，并有助于指导该领域的未来研究。

发布时间: 2/4/2025

查看原文

全面审查：深度神经网络在商业决策和市场预测投资中的适用性

作者: Viet Trinh

arXiv:2502.00151v1 宣告类型：交叉摘要：无论是结构化的还是非结构化的大量数据，都给经济学和商业带来了未预见的挑战。如何组织、分类并分析这样的数据以获取有意义的洞察是商业领导者和学术研究人员不断探索的研究主题。本文研究了深度神经网络在经济商业和投资决策中的最新应用，特别是在风险管理、投资组合优化和算法交易中的应用。尽管存在数据隐私限制和跨市场分析的挑战，文章表明深度神经网络在金融分类和预测方面表现出色。此外，研究表明，通过组合多种神经网络，涵盖不同数据类型的模式，可以构建出更具鲁棒性、高效性和可扩展性的金融预测框架。

发布时间: 2/4/2025

查看原文

多模态MRI-超声AI在前列腺癌检测中优于放射科医生MRI解释：多中心研究

作者: Hassan Jahanandish, Shengtian Sang, Cynthia Xinran Li, Sulaiman Vesal, Indrani Bhattacharya, Jeong Hoon Lee, Richard Fan, Geoffrey A. Sonna, Mirabela Rusu

arXiv:2502.00146v1 Announce Type: cross 摘要：术前磁共振成像（MRI）越来越被用于针对可疑的前列腺病变。这导致了人工智能（AI）应用提高了基于MRI检测临床显著性前列腺癌（CsPCa）的性能。然而，MRI检测到的病变在进行前列腺活检时仍需与经直肠超声（TRUS）图像匹配，从而导致CsPCa被遗漏。本研究系统评估了结合MRI和TRUS图像序列的多模态AI框架，以增强CsPCa的识别。研究包括了两家机构三个队列的3110名患者，这些患者都进行了前列腺活检。基于3D UNet架构的所提议框架，在1700个测试案例中进行评估，并与仅使用MRI或TRUS单模态AI模型进行了性能比较。此外，该所提议模型与110名患者的放射科医生进行了比较。多模态AI方法在敏感性（80%）和病灶Dice分数（42%）上优于单模态MRI（73%，30%）和TRUS模型（49%，27%）。与放射科医生相比，多模态模型在特异性（88% vs. 78%）和病灶Dice分数（38% vs. 33%）上表现出更好的性能，敏感性则相当（79%）。我们的发现表明，多模态AI有可能在活检和治疗规划期间提高CsPCa病变定位，并超越当前的单模态模型和放射科医生，最终改善前列腺癌患者的预后。

发布时间: 2/4/2025

查看原文

揭开MPNNs的神秘面纱：消息传递仅是高效矩阵乘法

作者: Qin Jiang, Chengjia Wang, Michael Lones, Wei Pang

arXiv:2502.00140v1 交叉公告类型摘要：尽管图神经网络（GNNs）已经取得了显著的成功，但其设计主要依赖于经验直觉而非理论理解。在本文中，我们通过三个方面对GNN行为进行了全面分析：（1）我们证明$k$层消息传递神经网络通过迭代计算高效地通过$k$跳邻域信息进行聚合；（2）分析不同的循环结构如何影响邻域计算；（3）考察混合结构-特征和仅结构任务中的行为。对于更深的GNNs，我们展示了梯度相关问题，而不仅仅是过平滑，会对稀疏图中的性能产生重大影响。我们还分析了不同的归一化方案如何影响模型性能以及GNN在均匀节点特征下进行预测的方式，从而提供了一个理论框架，将实际成功与理论理解联系起来。

发布时间: 2/4/2025

查看原文

一种三支权力制衡框架：针对大型语言模型上下文意识伦理对齐的监管体系

作者: Edward Y. Chang

arXiv:2502.00136v1 宣告类型: cross 摘要：本文介绍了灵感来自于政府系统的大型语言模型（LLMs）的伦理对齐的三支制衡框架。该框架包含三个独立且相互作用的组成部分：作为执行分支进行知识生成的LLMs；作为立法分支制定伦理绳索的DIKE；以及作为司法分支进行情境解释的ERIS。对抗性的DIKE-ERIS二元性使该架构能够适应多样化的文化背景，同时保持一致的伦理原则。通过提供可解释性、适应性和文化意识的伦理推理，该架构解决了带有反馈的人工强化学习（RLHF）的局限性。通过自我监督学习和对抗性测试，我们的框架展示了情感建模如何指导语言行为趋向伦理结果，同时在知识生成、伦理监督和情境解释之间保持独立性。

发布时间: 2/4/2025

查看原文

探索基于YOLOv8的结肠内镜图像息肉检测的迁移学习方法研究

作者: Fabian Vazquez, Jose Angel Nu\~nez, Xiaoyan Fu, Pengfei Gu, Bin Fu

arXiv:2502.00133v1 宣告类型: cross 摘要：深度学习方法在目标检测任务中表现出强大的性能；然而，在有限的训练数据下学习特定领域的应用仍然是一个重大挑战。迁移学习技术通过利用相关数据集预训练的知识，解决了这一问题，使新任务的学习更加快速和高效。找到合适的预训练数据集在确定迁移学习的成功以及整体模型性能方面起着关键作用。在本文中，我们研究了在七个不同的数据集上预训练YOLOv8n模型的影响，评估了这些数据集在转移到息肉检测任务中的有效性。我们比较了包含多样物体的大而通用的数据集与具有息肉类似特征的专一性数据集的效果。此外，我们评估了数据集大小对迁移学习效果的影响。在息肉数据集上的实验显示，预训练于相关数据集上的模型始终优于从头开始训练的模型，突显了在共享特定领域特征的数据集上预训练的好处。

发布时间: 2/4/2025

查看原文

阿拉伯语言包容性大型多模态模型

作者: Ahmed Heakl, Sara Ghaboura, Omkar Thawkar, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan

arXiv:2502.00094v1 类型: cross 摘要: 随着大型语言模型（LLMs）的迅速进步并演变为大型多模态模型（LMMs），高资源语言如英语和汉语取得了显著进展。虽然阿拉伯语LLMs已有显著进展，但阿拉伯语LMMs仍然很大程度上未被探索，常常仅集中在语言和视觉理解的少数特定方面。为弥补这一差距，我们引入了AIN（阿拉伯包容性多模态模型），旨在在多元领域中表现出色。AIN 是一种双语（英语-阿拉伯语）LMM，旨在在英语和阿拉伯语上表现出色，利用了精心构建的360万高质量阿拉伯语-英语多模态数据样本。AIN 在阿拉伯语方面表现出最先进的性能，同时在英语语言的视觉能力方面也表现出色。在包含38个子领域的近期CAMEL-Bench基准测试中，其中包括多图像理解、复杂视觉感知、手写文档理解、视频理解、医学成像、植物疾病和基于遥感的土地利用理解，我们的AIN在7B模型上表现出色，各领域和38个子领域的绝对改进率为3.4%。AIN 的优越能力使其成为向阿拉伯语使用者提供高级多模态生成AI工具的有力一步，适用于多样化的应用。

发布时间: 2/4/2025

查看原文

低秩专家适配器集合

作者: Yinghao Li, Vianne Gao, Chao Zhang, MohamadAli Torkamani

arXiv:2502.00089v1 Announce Type: cross 摘要：大型语言模型（LLMs）的训练和微调通常涉及来自多个来源的多样化的文本数据，这会导致方向相反的梯度，阻碍优化和专业化，从而影响模型在不同任务上的泛化能力，导致下游性能降低。最近的研究表明，通过在精心选择的任务特定子集上微调LLMs，可以达到甚至超过使用整个数据集的效果。基于这些发现，我们提出了一种低秩专家适配器的集合（ELREA）框架，以提高模型处理多样化任务的能力。ELREA根据梯度方向对训练指令进行聚类，表示不同的专业领域，并减少优化过程中的冲突。然后在这些聚类上训练专家适配器，利用低秩适应（LoRA）技术确保训练效率和模型的可扩展性。在推理过程中，ELREA基于输入数据与训练聚类的梯度相似性，结合最相关的专家适配器的预测，确保为每个任务选择最优的适配器。实验表明，我们的方法在多种领域特定任务上优于基础的LoRA适配器以及具有相似训练和推理复杂性的其他集成方法。

发布时间: 2/4/2025

查看原文

胶囊内镜中颜色校正对病理检测的影响

作者: Bidossessi Emmanuel Agossou, Marius Pedersen, Kiran Raja, Anuja Vats, P{\aa}l Anders Floor

arXiv:2502.00076v1 交叉类型: cross 摘要: 在近期的研究中，已经探讨了在无线胶囊内窥镜(WCE)中使用深度学习进行病理检测的问题。然而，深度学习模型可能会受到用于训练它们的数据集的颜色质量的影响，从而影响检测、分割和分类任务。在这项工作中，我们评估了颜色校正对病理检测的影响，使用了两种流行的物体检测模型：Retinanet和YOLOv5。我们首先使用两种不同的颜色校正函数生成了流行WCE数据集（即SEE-AI数据集）的两个颜色校正版本。然后，我们在原始数据集和颜色校正版本的数据集上评估了Retinanet和YOLOv5的性能。结果表明，颜色校正使得模型生成更大的边界框以及与真实标注更大的交集区域。此外，颜色校正还会导致某些病理情况下假阳性数量增加。然而，这些效果并未在如F1分数、IoU和AP50等性能指标上转化为一致的改进。代码可在https://github.com/agossouema2011/WCE2024获得。关键词: 无线胶囊内窥镜、颜色校正、Retinanet、YOLOv5、检测

发布时间: 2/4/2025

查看原文