arXiv 论文列表

作者: Abdoul Majid O. Thiombiano, Brahim Hnich, Ali Ben Mrad, Mohamed Wiem Mkaouer

arXiv:2503.18565v1 交叉类型摘要：当前的自然语言处理（NLP）时代主要由Transformer模型支配。然而，基于递归机制的新型架构，如xLSTM和Mamba，已被提出作为基于注意力机制模型的替代方案。尽管这些递归模型的计算方式不同于基于注意力机制的方式，但它们取得了很好的效果，并且有时甚至超越了最先进的基于注意力机制的模型。在这项工作中，我们提出了Distil-xLSTM，这是一种基于xLSTM的小型语言模型（SLM），通过从大型语言模型（LLM）中蒸馏知识来训练，其在能够取得有希望的结果的同时，还具有计算和规模上的高效性。我们的Distil-xLSTM专注于使用其递归序列混合组件来近似基于Transformer模型的注意力参数化，并且通过最小的训练展示了良好的效果。

发布时间: 3/25/2025

查看原文

大型语言模型在胃肠病学领域的自我报告信心分析：商业、开源和量化模型的分析

作者: Nariman Naderi, Seyed Amir Ahmad Safavi-Naini, Thomas Savage, Zahra Atf, Peter Lewis, Girish Nadkarni, Ali Soroush

arXiv:2503.18562v1 交叉公告类型: cross 摘要：本研究使用300个胃肠道科考试风格的问题，评估了多种大型语言模型（GPT、Claude、Llama、Phi、Mistral、Gemini、Gemma和Qwen）的自我报告响应 certainty。表现最佳的模型（GPT-o1 预览、GPT-4o 和 Claude-3.5-Sonnet）获得了0.15-0.2的布里尔得分和0.6的AUROC。尽管 newer 模型表现出改进的性能，所有模型都表现出一致的过度自信倾向。不确定性估计对医疗保健中 LLM 的安全使用构成了重大挑战。关键词：大型语言模型；信心征询；人工智能；胃肠道；不确定性量化

发布时间: 3/25/2025

查看原文

EvAnimate: 事件条件下的图像到视频生成对人体动画

作者: Qiang Qu, Ming Li, Xiaoming Chen, Tongliang Liu

arXiv:2503.18552v1 宣传类型：跨领域摘要：条件人体动画通过应用姿态等运动提示将静态参考图像转换为动态序列。这些运动提示通常源自视频数据，但受到时间分辨率低、运动模糊、过度曝光和低光条件下的不准确性等限制。相比之下，事件相机提供了具有极高时间分辨率、宽动态范围以及对运动模糊和曝光问题天然抵抗力的数据流。在此项工作中，我们提出了 EvAnimate，一种框架，该框架利用事件流作为运动提示来使静态人体图像动画化。我们的方法采用专门的事件表示，将其异步事件流转换为具有可控制的切片速率和适当切片密度的3通道切片，确保与扩散模型的兼容性。随后，采用双分支架构通过利用事件流中的固有运动动态生成高质量的视频，从而提高视频质量和时间一致性。专业化的数据增强策略进一步增强了跨不同人种的应用效果。最后，我们建立了一个新的基准测试，包括用于训练和验证的模拟事件数据集，以及用于捕捉正常和极端场景下人类行为的真实事件数据集。实验结果表明，在传统源自视频的提示表现不佳的场景中，EvAnimate实现了高时间保真度和稳健的性能。

发布时间: 3/25/2025

查看原文

具有潜在空间扩散的鉴别性蛋白质序列建模

作者: Eoin Quinn, Ghassene Jebali, Maxime Seince, Oliver Bent

arXiv:2503.18551v1 型别: cross 摘要: 我们探讨了一种蛋白质序列表示学习的框架，该框架将任务分解为流形学习和分布建模之间的分工。具体来说，我们提出了一种潜在空间扩散架构，将蛋白质序列自动编码器与在其潜在空间上运行的去噪扩散模型相结合。我们从扩散模型中获得了具有单参数的已学习表示形式，以及自动编码器的潜在表示。我们提出了两种自动编码器架构：一种同质模型，要求相同类型的氨基酸在潜在空间中具有相同的分布，以及一种使用基于噪声的掩码变体的异质模型。作为基线，我们使用掩码语言建模学习的潜在空间，并在一系列蛋白质属性预测任务上评估其辨别能力。我们的研究发现是两方面的：在我们提出的两种变体上训练的扩散模型显示出比基于掩码语言模型基线训练的模型更高的辨别力，然而，没有任何一种扩散表示能够达到掩码语言模型嵌入自身的性能。

发布时间: 3/25/2025

查看原文

RLCAD: 用于革命性涉及CAD命令序列生成的强化学习训练健身房

作者: Xiaolong Yin, Xingyu Lu, Jiahang Shen, Jingzhe Ni, Hailong Li, Ruofeng Tong, Min Tang, Peng Du

arXiv:2503.18549v1 宣布类型: 交叉摘要: 3D CAD系统中的CAD命令序列是一个典型的参数化设计范式，其中通过叠加2D草图并使用诸如拉伸、旋转和布尔运算等操作来构建模型。尽管自动生成命令序列的学术兴趣日益增加，但现有方法和数据集仅支持2D草图绘制、拉伸和布尔运算等操作。这一限制使得表示更复杂几何结构变得具有挑战性。在本文中，我们提出了一种基于CAD几何引擎的强化学习（RL）训练环境（gym）。给定一个输入边界表示（B-Rep）几何结构，RL算法中的策略网络生成一个动作。该动作与之前生成的动作一起在gym中处理，以生成相应的CAD几何结构，该几何结构随后反馈给策略网络。奖励由gym中生成的几何结构与目标几何结构之间的差异确定，并用于更新RL网络。我们的方法支持超出草图、布尔运算和拉伸的操作，包括旋转操作。利用这个训练环境，我们实现了从B-Rep几何结构生成命令序列的最新技术水平（SOTA）。此外，与之前的训练环境相比，我们的方法能够将命令序列生成的效率提高39倍。

发布时间: 3/25/2025

查看原文

基于身份和交互的网络取证分析

作者: Nathan Clarke, Gaseb Alotibi, Dany Joy, Fudong Li, Steven Furnell, Ali Alshumrani, Hussan Mohammed

arXiv:2503.18542v1 交叉公告类型摘要：在当今日益增长的电子犯罪背景下，网络取证在数字调查中扮演着至关重要的角色。它有助于理解需要分析哪些系统，并作为补充，支持通过传统的基于计算机的调查发现的证据。然而，现有的网络取证分析工具（NFAT）在提供可用数据方面不如文件系统取证分析工具（FS FAT）。分析通常集中在IP地址上，但这些IP地址并不等同于用户身份，这是调查人员非常关注的问题。本文提出了几种实验，旨在创建一种新颖的NFAT方法，能够在流量保持加密的情况下识别用户并理解他们如何使用基于网络的应用程序。这些实验建立在现有技术的基础上，研究这种方法在分类用户及其行为方面的有效性。利用一个包含5000万个包的数据集，实验包括三个逐步改进的发展阶段，以提高性能。在成功的实验基础上，提出了一种NFAT界面，以展示调查人员能够轻松提出相关问题的能力。在涵盖27名用户的实验中，平均true positive identification rate (TPIR)达到了93.3%，其中41%的用户达到了100%的TPIR。Skype、Wikipedia和Hotmail服务的表现尤为突出。研究开发并评估了一种通过建模网络流量来更有效地分析加密网络流量的方法，并通过一种新颖的网络取证分析工具可视化这些交互。

发布时间: 3/25/2025

查看原文

UniPCGC：通过一种高效统一的方法 towards 实用的点云几何压缩

作者: Kangli Wang, Wei Gao

arXiv:2503.18541v1 Announce Type: 定型摘要：基于学习的点云压缩方法在性能方面取得了显著进展。然而，这些方法仍然面临复杂性高、压缩模式有限以及不支持可变比特率等挑战，这限制了这些方法的实际应用。为了推动实际点云压缩的发展，我们提出了一种高效的统一点云几何压缩框架，称为UniPCGC。这是一个轻量级框架，支持有损压缩、无损压缩、可变比特率和可变复杂度。首先，在无损模式下，我们引入了非均匀8阶段无损编码器(UELC)，它将更多的计算复杂性分配给编码难度更高的组，并将编码难度较低的组合并。其次，通过结合速率调制模块和动态稀疏卷积，无损模式下实现了可变比特率和复杂度模块（VRCM）。最后，通过UELC和VRCM的动态组合，我们在此统一框架内实现了有损压缩、无损压缩、可变比特率和可变复杂度。与之前最先进的方法相比，我们的方法在无损压缩方面的压缩比(CR)提高了8.1%，在有损压缩方面的Bjontegaard Delta Rate (BD-Rate)提高了14.02%，同时还支持可变比特率和可变复杂度。

发布时间: 3/25/2025

查看原文

HiRes-FusedMIM：一种用于建筑级遥感应用的高分辨率RGB-DSM预训练模型

作者: Guneet Mutreja, Philipp Schuegraf, Ksenia Bittner

arXiv:2503.18540v1 宣传类型：交叉摘要：最近在自我监督学习方面的进展导致了基础模型的开发，这些基础模型在各种计算机视觉任务中显著提高了性能。然而，尽管这些模型具有巨大的潜力，它们往往忽略了高分辨率数字表面模型（DSMs）在理解城市环境中所发挥的关键作用，尤其是在建筑物级别分析方面，这对于数字孪生等应用至关重要。为了解决这一缺口，我们提出了一种新的预训练模型HiRes-FusedMIM，该模型专为利用高分辨率RGB和DSM数据中丰富的信息而设计。HiRes-FusedMIM采用了一种双编码器简单的遮蔽图像建模（SimMIM）架构，并结合了重构和对比目标的多目标损失函数，使它能够从多种模态中学习强大的联合表示。我们在包括WHU航空和LoveDA在内的多种下游任务中对HiRes-FusedMIM进行了全面评估，包括分类、语义分割和实例分割。我们的结果显示：1)HiRes-FusedMIM在多个建筑物相关数据集中超越了之前的最先进的地理空间方法，证明了其在捕捉和利用细粒度建筑物信息方面的有效性；2) 预训练过程中结合DSM数据的一致上佳表现比单独使用RGB数据有所提升，突显了高程信息对建筑物级别分析的价值；3) HiRes-FusedMIM的双编码器架构，在Vaihingen分割任务中比单一编码器模型表现出显著优势，表明为每个模态学习专门表示的好处。为了促进这一方向的进一步研究和应用，我们将公开发布训练好的模型权重。

发布时间: 3/25/2025

查看原文

挪威语、瑞典语和丹麦语电子健康记录中的自然语言处理：Norwegian, Swedish and Danish

作者: Ashenafi Zebene Woldaregay, J{\o}rgen Aarmo Lund, Phuong Dinh Ngo, Mariyam Tayefi, Joel Burman, Stine Hansen, Martin Hylleholt Sillesen, Hercules Dalianis, Robert Jenssen, Lindsetmo Rolf Ole, Karl {\O}yvind Mikalsen

arXiv:2503.18539v1 宣告类型: cross 摘要：背景：临床自然语言处理（NLP）是指利用计算方法提取、处理和分析未结构化临床文本数据，并在各种临床任务中具有巨大的潜力以变革医疗保健。目标：本研究旨在进行一项系统回顾，全面评估和分析最新的临床NLP方法在大陆斯堪的纳维亚地区的表现。方法：于2022年12月至2024年2月期间，在PubMed、ScienceDirect、Google Scholar、ACM数字图书馆和IEEE Xplore等各个在线数据库中进行了文献搜索。此外，还参考了入选文章的相关参考文献，以加强我们的搜索。最终池包括2010年至2024年间用大陆斯堪的纳维亚语言进行临床NLP并在英语中发表的文章。结果：在这113篇文章中，21篇（占18%）关注挪威临床文本，72篇（占64%）关注瑞典，11篇（占10%）关注丹麦，9篇（占8%）涉及多种语言。总体而言，综述识别出了该地区的积极发展，尽管不同语言之间存在一些可观察到的差距和差异。在采用基于变压器的模型方面存在显著差异。在去标识化等关键任务中，针对挪威语和丹麦语正文的研究活动显著少于瑞典语文本。进一步地，综述还发现了该地区资源共享（如数据、实验代码、预训练模型）和迁移学习适应率较低的情况。结论：综述全面评估了大陆斯堪的纳维亚语言电子健康记录（EHR）文本的最新临床NLP状态，并指出了可能阻碍该地区领域快速发展的障碍和挑战。

发布时间: 3/25/2025

查看原文

SciClaims: 一个端到端的生成系统用于生物医学声明分析

作者: Ra\'ul Ortega, Jos\'e Manuel G\'omez-P\'erez

arXiv:2503.18526v1 声明类型: cross 摘要: 验证科学文献中的关键声明，特别是在 biomedical 研究领域，对于确保准确性和推动知识进步至关重要。这一过程对于制药行业等领域尤其关键，因为快速的科学发展需要自动化和深厚的专业知识。然而，当前的解决方案存在显著的局限性。它们缺乏涵盖所有声明提取、证据检索和验证步骤的端到端管道；依赖于容易出现多个故障点的复杂自然语言处理（NLP）和信息检索管道；并且往往无法为声明验证结果提供清晰且用户友好的解释。为了解决这些挑战，我们介绍了 SciClaims，这是一种由最先进的大型语言模型（LLMs）驱动的先进系统，能够无缝整合整个科学研究声明分析过程。SciClaims 在声明提取和验证方面均超过了之前的解决方案，无需额外的微调，从而为自动化科学研究声明分析设立了新的标准。

发布时间: 3/25/2025

查看原文