arXiv 论文列表

作者: Zongyue Qin, Shichang Zhang, Mingxuan Ju, Tong Zhao, Neil Shah, Yizhou Sun

arXiv:2504.06193v1 交叉类型：cross 摘要：链接预测是图学习任务中的关键任务，其应用包括引用预测和产品推荐。将图神经网络（GNNs）教师精炼为多层感知器（MLPs）学生，已成为一种有效的减少计算成本并实现高性能的方法，通过去除图依赖性。然而，现有的精炼方法仅使用标准GNNs，忽略了链接预测专用模型（GNN4LP）和启发式方法（例如，共同邻居）等替代教师。本文首先探索GNN-to-MLP精炼中不同教师的影响。令人惊讶的是，我们发现更强的教师并不总是产生更强的学生：从GNN4LP精炼出的MLPs有时会不如从更简单的GNNs精炼出的MLPS，而较弱的启发式方法可以通过大幅减少训练成本来教MLPs达到接近GNNs的性能。基于这些见解，我们提出了一种集成启发式精炼的MLP（EHDM），它通过门控机制有效地整合互补信号，同时消除图依赖性。在十个数据集上的实验表明，与之前的GNN-to-MLP方法相比，EHDM平均提高了7.93%的性能，且训练时间减少了1.95-3.32倍，表明EHDM是一种高效且有效的链接预测方法。

发布时间: 4/9/2025

查看原文

伤口 ambit：融合最先进的语义分割与实际伤口护理

作者: Vanessa Borst, Timo Dittus, Tassilo Dege, Astrid Schmieder, Samuel Kounev

arXiv:2504.06185v1 声明类型：交叉摘要：慢性伤口影响大量人群，尤其是老年人和糖尿病患者，这些人往往具有有限的活动能力和并发的健康状况。通过移动设备拍摄图像实现自动化伤口监测可以减少亲自就诊的次数，从而允许远程跟踪伤口大小。语义分割是这一过程中的关键步骤，然而伤口分割在医学影像研究中仍然相对欠缺。为了解决这个问题，我们采用通用视觉、医学影像和公开伤口挑战中的顶级方法作为参考基准的深度学习模型进行性能评估。为了确保公平比较，我们对训练、数据增强和评估进行了标准化，并进行了交叉验证，以最小化分区偏差。我们还评估了实际部署方面的问题，包括对不同分布伤口数据集的泛化能力、计算效率和可解释性。此外，我们提出了一种基于参考对象的方法，将AI生成的掩码转换为具有临床相关性的伤口大小估计，并根据医生评估对最佳模型进行评估。总体而言，基于转换器的TransNeXt显示了最高的泛化能力。尽管推断时间存在差异，但所有模型都在CPU上每秒至少处理了一张图像，这被认为足以满足预期应用。可解释性分析通常揭示了伤口区域中显著的激活，强调了对临床相关特征的关注。专家评估表明，所有分析模型的掩码批准率都很高，VWFormer和ConvNeXtS主干表现最好。大小检索的准确性在模型之间相似，预测与专家注释紧密匹配。最后，我们展示了如何将我们的基于AI的伤口大小估计框架WoundAmbit集成到自定义的远程健康系统中。我们的代码将在发表后发布到GitHub上。

发布时间: 4/9/2025

查看原文

基于自我监督的太空物体行为特征化框架

作者: Ian Groves, Andrew Campbell, James Fernandes, Diego Rodriguez, Paul Murray, Massimiliano Vasile, Victoria Nockles

arXiv:2504.06176v1 类型: cross 摘要：基础模型在特定任务微调之前，已经在大型未标记数据集上进行预训练，现在越来越被应用于专门的领域。最近的例子包括ClimaX用于气候研究和Clay用于卫星地球观测，但尚未开发出用于太空物体行为分析的基础模型。随着太空轨道物体数量的增长，自动化的分析方法对于太空安全至关重要。我们提出了一个专注于使用光变曲线（LCs）进行太空物体行为分析的空间安全与可持续性基础模型。我们实现了一个基于Perceiver-变分自编码器（VAE）的架构，采用自监督重建和遮蔽重建在MMT-9观测站的227,000条LCs上进行预训练。VAE能够实现异常检测、运动预测和LC生成。我们使用两个独立的LC模拟器（CASSANDRA和GRIAL）分别对异常检测和运动预测进行了微调，使用了箱翼、Sentinel-3、SMOS和Starlink平台的CAT模型。我们的预训练模型实现了0.01%的重建误差，通过重建难度识别出可能异常的光变曲线。通过微调后，该模型在异常检测中的准确率分别为88%，在运动模式预测中的准确率分别为82%，两个方法的ROC AUC分数分别为0.90和0.95。对真实数据中高置信度异常预测的分析揭示了包括特征物体轮廓和卫星反光在内的独特模式。在这里，我们展示了自监督学习如何能够同时实现异常检测、运动预测和从预训练中学习到的丰富表示生成合成数据。因此，我们的工作通过自动监测和模拟能力支持了太空安全与可持续性。

发布时间: 4/9/2025

查看原文

基于深度学习的毫米波波束形成内连接车辆的多模态感知

作者: Muhammad Baqer Mollah, Honggang Wang, Mohammad Ataul Karim, Hua Fang

arXiv:2504.06173v1 宣告类型: cross 摘要:波束形成技术被认为是在毫米波(mmWave)通信中补偿严重路径损耗的关键组成部分。特别是在这些技术中，采用大型天线阵列并形成窄波束以获得满意的接收功率。然而，通过传统的标准定义的波束选择方法进行准确的波束对准以实现有效的链路配置，这些方法主要依赖于信道状态信息并通过穷尽搜索进行波束扫描，会带来计算和通信开销。并且，这样的开销限制了它们在涉及高度动态场景的车辆到基础设施(V2I)和车辆到车辆(V2V)通信中的潜在应用。相比之下，利用带外上下文信息，例如从传感器设备获得的感知数据，提供了减少开销的更好替代方案。本文提出了一种基于深度学习的解决方案，利用多模态感知数据 prediction 最佳波束，这些波束具有足够的毫米波接收功率，以确保在主动模式下实现最佳 V2I 和 V2V 直视链路。该提出的解决方案已在实测的毫米波感知和通信数据上进行了测试，结果显示，在预测前 13 个最佳波束时，其准确率可达到98.19%。相应地，当与现有的波束扫描方法进行比较时，波束扫描的搜索空间和时间开销分别减少了约79.67%和91.89%，这确认了一个在毫米波支持的通信中进行波束形成的有希望的解决方案。

发布时间: 4/9/2025

查看原文

基于光谱图图像和卷积神经网络的实时音调/F0检测

作者: Xufang Zhao, Omer Tsimhoni

arXiv:2504.06165v1 Announce Type: 对比摘要：本文提出了一种通过卷积神经网络和图像处理技术直接从频谱图图像中估计音高的新方法来检测基频。我们的新方法显示出非常良好的检测准确度；预测的音高轮廓中有92%与真正的音高轮廓具有较强或中等的相关性。此外，与最先进的CNN方法的实验比较表明，我们的方法在各种信噪比条件下可以将检测率提高约5%。

发布时间: 4/9/2025

查看原文

探索兔子洞：LLM生成的针对心理健康群体的攻击 narratives 中 emergent 的偏差

作者: Rijul Magu, Arka Dutta, Sean Kim, Ashiqur R. KhudaBukhsh, Munmun De Choudhury

arXiv:2504.06160v1 Announce Type: 多领域交叉摘要：大规模语言模型（LLMs）已被证明对某些群体表现出不平衡的偏见。然而，LLMs 对处于风险中的群体进行无缘无故针对性攻击的研究仍较少探索。我们的论文提出了三项新颖贡献：（1）明确评估LLM生成的攻击，针对高度脆弱的心理健康群体；（2）基于网络的框架来研究相对偏见的传播；（3）评估这些攻击中出现的相对污名化程度。我们对近期发布的大规模偏见审计数据集的分析揭示，心理健康实体在攻击叙事网络中处于中心位置，表现为显著更高的接近中心性平均值（p值=4.06e-10）和稠密聚类（基尼系数=0.7）。基于污名化理论的社会学基础，我们的污名化分析表明，心理健康障碍相关的目标相对于生成链中的初始目标具有更多的标签化成分。这些洞察揭示了大规模语言模型在加剧有害言论方面结构上的倾向，突显了需要采取适当方法进行缓解的必要性。

发布时间: 4/9/2025

查看原文

ARLO：一种使用大语言模型转换自然语言软件需求到架构的可定制方法

作者: Tooraj Helmi

arXiv:2504.06143v1 宣布类型: cross 摘要: 用自然语言（NL）表达的软件需求经常存在冗长、模糊和不一致的问题。这造就了一系列挑战，包括为系统选择适当的架构以及评估不同的架构选择。依赖人力来完成将NL需求映射到架构的任务既耗时又容易出错。本文提出了一种称为ARLO的方法，通过利用（1）系统的NL需求集，（2）一个现有的标准，该标准规定了与软件架构相关的质量属性，以及（3）一种现成的大型语言模型（LLM），自动完成这一任务。具体来说，ARLO确定了对于给定系统的与架构相关的NL需求子集，并将该子集映射到可定制的架构选择矩阵。ARLO在架构选择矩阵上应用整数线性规划来确定当前需求的最佳架构。我们使用一组真实世界的例子来展示ARLO的有效性。我们强调了ARLO的能力：（1）追踪所选的架构选择至需求；（2）隔离那些对系统架构产生特定影响的NL需求。这使得基于需求和其中表达的约束条件识别、比较评估和探索不同的架构选择成为可能。

发布时间: 4/9/2025

查看原文

foundation模型时代的多媒体分析模型

作者: Marcel Worring, Jan Zah\'alka, Stef van den Elzen, Maximilian Fischer, Daniel Keim

arXiv:2504.06138v1 声明类型：交叉摘要：基础模型和自主人工智能的迅速进步正在通过促进人类与分析系统之间更丰富、更复杂的互动来转变多媒体分析。然而，现有的关于视觉和多媒体分析的概念模型并未充分捕捉这些强大AI范式的复杂性。为了解决这一差距，我们提出了一种专门设计用于基础模型时代的全面多媒体分析模型。建立在视觉分析、多媒体分析、知识生成、分析任务定义、混合主动引导以及循环强化学习等现有框架的基础上，我们的模型从技术和概念上都强调了基于视觉分析代理的人机团队协作。模型的核心是专家用户与半自动分析过程之间无缝且明确分离的交互渠道，确保用户意图与AI行为之间的连续对齐。该模型解决了情报分析、调查新闻报道以及涉及复杂、高风险数据的其他领域的实际挑战。通过详细的案例研究，我们展示了该模型如何促进对多媒体分析解决方案的更深层次理解和针对性改进。通过明确捕获专家用户如何与AI驱动的多媒体分析系统进行最优交互和引导，我们的概念框架为系统的设计、比较和未来研究提供了清晰的方向。

发布时间: 4/9/2025

查看原文

QGen 工作室：一种自适应问答生成、训练与评估平台

作者: Movina Moses, Mohab Elkaref, James Barry, Shinnosuke Tanaka, Vishnudev Kuruvanthodi, Nathan Herr, Campbell D Watson, Geeth De Mel

arXiv:2504.06136v1 类型: cross 摘要: 我们介绍了 QGen Studio：一个自适应的问题-答案生成、训练和评估平台。QGen Studio 允许用户利用大规模语言模型 (LLMs) 创建自定义的问题-答案数据集，并在这些合成数据上 fine-tune 模型。它具备数据集查看器和模型探索器，以简化这一过程。数据集查看器提供关键指标并可视化 QA 对生成的上下文，提供数据质量的洞察。模型探索器支持模型比较，使用户能够将他们训练的 LLMs 的性能与其他模型进行对比，支持性能基准测试和优化。QGen Studio 提供了一个互动的、端到端的解决方案，用于生成问题-答案数据集和训练可扩展且领域自适应的模型。该工作室即将开源，允许用户在本地部署它。

发布时间: 4/9/2025

查看原文

面向车辆侧滑角估计的不确定性感知混合机器学习在虚拟传感器中的应用

作者: Abinav Kalyanasundaram, Karthikeyan Chandra Sekaran, Philipp Stauber, Michael Lange, Wolfgang Utschick, Michael Botsch

arXiv:2504.06105v1 类别: cross 摘要: 准确的车辆状态估计是实现安全可靠的自动驾驶的关键。车载车辆传感器系统的可测量状态数量及其精度往往受到成本的限制。例如，使用现有的光学传感器测量关键参数如车辆侧滑角（VSA）面临着重大的商业挑战。本文通过关注高性能虚拟传感器的开发来解决这些限制，以增强车辆状态估计，从而提高主动安全性。提出的 Uncertainty-Aware Hybrid Learning（UAHL）架构将机器学习模型与车辆运动模型结合，直接从车载传感器数据中估计 VSA。UAHL 架构的一个关键方面是它专注于个体模型估计的不确定性量化以及混合融合机制。这些机制能够动态加权来自机器学习和车辆运动模型的不确定性感知预测，以生成准确可靠的混合 VSA 估计。本文还介绍了名为 Real-world Vehicle State Estimation Dataset（ReV-StED）的新型数据集，该数据集包含高级车辆动力学传感器的同步测量数据。实验结果展示了所提出的方法在 VSA 估计方面的卓越性能，突显了 UAHL 架构在推进虚拟传感器和增强自动驾驶汽车主动安全性方面的潜力。

发布时间: 4/9/2025

查看原文