arXiv 论文列表

KEVS: 用高斯核密度估计增强肾切除术CT中 visceral adipose tissue 的分割

作者: Thomas Boucher, Nicholas Tetlow, Annie Fung, Amy Dewar, Pietro Arina, Sven Kerneis, John Whittle, Evangelos B. Mazomenos

arXiv:2503.22592v1 交叉类型: cross 摘要: 目的: 膀胱切除术患者腹腔内内脏脂肪组织(VAT)的分布预示着术后并发症的发生率。现有的使用强度阈值进行计算机断层扫描(CT)内脏脂肪组织分割的方法存在观察者间变异性的问题。此外，创建可靠ground-truth遮罩的困难限制了针对该任务的深度学习(DL)模型的发展。本文提出了一个新颖的在术前CT中预测VAT的方法，该方法是全自动的，并且不需要在训练过程中使用ground-truth VAT遮罩，从而克服了上述限制。方法: 我们引入了Kernel密度增强内脏脂肪组织分割器(KEVS)，结合了一个深度学习语义分割模型进行多体素特征预测，并通过高斯核密度估计分析预测的皮下脂肪组织，以实现腹腔内VAT的精确扫描特异性预测。与其他深度学习管道不同，KEVS不需ground-truth VAT遮罩。结果: 我们验证了KEVS在未见CT数据中准确分割腹部器官的能力，并在伦敦大学学院医院(University College London Hospital, UCLH-Cyst)的20例术前CT扫描数据集(含专家ground-truth注释)中，将KEVS的VAT分割预测结果与现有的最佳方法进行了对比。在UCLH-Cyst数据集上评估，KEVS分别比第二好的深度学习和基于阈值的VAT分割技术提高了4.80%和6.02%的Dice系数。结论: 本研究引入了KEVS；这是一种全自动的、处于前沿的方法，用于预测术前CT中的VAT，能够消除观察者间变异性，并且是在不包含ground-truth VAT遮罩的开源CT数据集上进行训练的方法。

发布时间: 3/31/2025

查看原文

使用AI总结1952-2012年美国总统竞选电视广告视频

作者: Adam Breuer, Bryce J. Dietrich, Michael H. Crespin, Matthew Butler, J. A. Pyrse, Kosuke Imai

arXiv:2503.22589v1 宣传类型: 横跨摘要：本文介绍了有史以来最大的美国总统竞选电视广告数据集，以数字格式提供。该数据集还包括可机读的脚本和高质量的摘要，旨在促进各种学术研究。迄今为止，关于收集和分析美国总统竞选广告的兴趣非常大，但由于人工采购和标注的需要，许多人都依赖于较小的子集。我们设计了一种大规模并行化的人工智能分析管道，自动完成了准备、转录和总结视频的繁琐过程。然后，我们将这种方法应用于朱利安·P·肯特政治广告档案中的9,707条总统广告。我们进行了广泛的评估，以表明这些脚本和摘要与手动生成的替代品具有相同的质量。通过提供一个应用程序来跟踪七十年来的总统选举期间当前焦点问题的起源和发展，我们展示了这些数据的价值。我们的分析管道和代码库还展示了如何使用基于LLM的工具为其他视频数据集获取高质量的摘要。

发布时间: 3/31/2025

查看原文

历史墨水：探索大型语言模型在检测19世纪西班牙语讽刺方面的应用

作者: Kevin Cohen, Laura Manrique-G\'omez, Rub\'en Manrique

arXiv:2503.22585v1 交叉领域类型: cross 摘要：本研究探讨了使用大型语言模型（LLMs）来增强数据集并提高19世纪拉丁美洲报纸中的讽刺检测效果。通过多项分类和二分类任务，我们采用了两种策略来评估BERT和GPT-4o模型在捕捉讽刺微妙之处方面的有效性。首先，我们实施了数据集增强措施，侧重于丰富情感和上下文线索，但这些措施在历史语言分析中显示出有限的影响。第二种策略是半自动注释过程，有效解决了类别不平衡问题，并通过高质量的注释增加了数据集。尽管在讽喻的复杂性面前存在挑战，但本项工作通过对两个关键贡献促进了情感分析的进步：引入了一个经过讽刺检测标注的新历史西班牙语数据集，以及提出了一种半自动注释方法，其中人类专业知识对于细化LLMs结果至关重要，并结合了历史和文化背景作为核心特征。

发布时间: 3/31/2025

查看原文

通过多语言文本正则化打破语言障碍的视觉语言模型

作者: I\~nigo Pikabea, I\~naki Lacunza, Oriol Pareras, Carlos Escolano, Aitor Gonzalez-Agirre, Javier Hernando, Marta Villegas

arXiv:2503.22577v1 交叉公告类型摘要：视觉语言模型（VLMs）的快速进步已经改变了多模态理解，但经常受限于生成英文响应的情况，这与输入语言无关。这一现象被称为图像诱导的语言保真度损失（IFL），其根源在于有限的多模态多语言训练数据。为了解决这一问题，我们提出了一种连续的多语言整合策略，在视觉指令微调过程中注入全文本多语言数据，以保持语言模型原有的多语言能力。广泛的评估表明，我们的方法在不牺牲视觉性能的情况下显著提高了多种语言的语言保真度。我们还探讨了模型合并的方法，这种方法可以提高语言保真度，但会牺牲视觉性能。相比之下，我们的核心方法在不妥协的情况下实现了稳健的多语言对齐，为全球VLM采用提供了一种可扩展且有效的路径，以缓解IFL问题。

发布时间: 3/31/2025

查看原文

关于可互换深度强化学习实现的错误假设

作者: Rajdeep Singh Hundal, Yan Xiao, Xiaochun Cao, Jin Song Dong, Manuel Rigger

arXiv:2503.22575v1 交叉公告类型摘要：深度强化学习（DRL）是一种人工智能范式，其中智能体使用神经网络来学习在给定环境中采取哪些行动。DRL 最近因能够解决诸如驾驶模拟器、3D 机器人控制以及多人在线战斗竞技场视频游戏这样的复杂环境而受到了广泛关注。目前，大量的最先进的算法实现被用于训练这些智能体，如深度 Q 网络（DQN）和近端策略优化（PPO）等算法。然而，许多研究错误地假设相同的算法实现是一致的，因此是可互换的。在本文中，通过差异性测试的视角，我们研究了实现不一致性的影响范围，以及它们对实现性能的影响，以及在假设实现可互换的情况下先前研究结论的影响。我们差异性测试的结果显示，在测试的算法实现之间存在显著差异，表明这些实现并非可互换。特别是，在对 56 个游戏进行了五种 PPO 实现的测试后，三种实现中有两种在总试验中实现了 50% 的超人类性能，而另外两种实现则在总试验中仅实现了不到 15% 的超人类性能。作为细致的手动分析一部分，我们分析了实现的源代码，确定代码级不一致性是造成这些差异的主要原因。最后，我们复制了一项研究，并表明这种实现互换性的假设足以翻转实验结果。因此，这要求我们改变如何使用实现的方式。

发布时间: 3/31/2025

查看原文

端到端AI流水线的密码学可验证性框架

作者: Kar Balan, Robert Learney, Tim Wood

arXiv:2503.22573v1 Announce Type: cross 摘要：人工智能在多个行业领域的集成日益增加，这需要强大的机制来确保其开发和部署的透明度、可信度和可审计性。鉴于各种司法管辖区最近在人工智能安全方面引入监管和立法的要求，这一话题尤为重要。本文提出了一套完整的可验证人工智能流水线框架，确定了关键组件，并对有助于不同阶段人工智能生命周期中可验证性的现有加密方法进行了分析，从数据 sourcing 到训练、推理和遗忘。该框架可以用来打击虚假信息，通过将加密证明与人工智能生成的资产一起提供，允许下游验证其来源和准确性。我们的研究成果强调了持续研究的重要性，以开发既高效用于孤立的人工智能过程，又能在人工智能流水线内的不同过程中高效“链接”的加密工具，以支持端到端可验证的人工智能技术的发展。

发布时间: 3/31/2025

查看原文

尼 Yamada : 打破大语言模型推理服务的孤岛

作者: Kanishk Goel, Jayashree Mohan, Nipun Kwatra, Ravi Shreyas Anupindi, Ramachandran Ramjee

arXiv:2503.22562v1 通知类型：交叉摘要：大规模语言模型（LLMs）的广泛应用使得各种具有不同延迟需求的应用成为可能。现有的LLM服务框架依赖于隔离的基础设施和粗粒度的工作负载隔离——交互式和批处理，导致资源利用率低效和对细粒度的服务质量（QoS）差异支持有限。这导致了操作效率低下、过度配置以及在流量激增期间的糟糕负载管理。我们提出了Niyama，这是一种新的以QoS为导向的推理服务系统，能够高效地在共享基础设施上协同调度多种工作负载。Niyama引入了细粒度的QoS分类，允许应用程序指定精确的延迟要求，并根据实时系统状态动态调整调度决策。利用LLM推理可预测的执行特征，Niyama实现了动态切分机制，以提高整体吞吐量同时严格维持QoS保证。此外，Niyama采用了一种混合优先级政策来平衡公平性和效率，并采用选择性请求降级策略，在超载情况下提供优雅的服务降级。我们的评估表明，与当前隔离部署相比，Niyama将服务容量提高了32%的同时保持了QoS保证。值得注意的是，在极端负载条件下，我们的系统将SLO违规数量减少了数量级。

发布时间: 3/31/2025

查看原文

SafeCast：面向自主车辆的风险响应运动预测

作者: Haicheng Liao, Hanlin Kong, Bin Rao, Bonan Wang, Chengyue Wang, Guyang Yu, Yuming Huang, Ruru Tang, Chengzhong Xu, Zhenning Li

arXiv:2503.22541v1 宣告类型: cross 摘要：准确的运动预测对于自主驾驶（AD）系统的安全性和可靠性至关重要。尽管现有方法已经取得了显著进展，但它们往往忽略了显式安全约束，并且难以捕捉交通参与者、环境因素和运动动力学的复杂交互。为解决这些挑战，我们提出了SafeCast，这是一种风险响应型运动预测模型，将安全意识决策与不确定性意识适应性相结合。SafeCast是第一个将责任敏感安全（RSS）框架整合到运动预测中的模型，基于交通规范和物理原理编码可解释的安全规则，如安全距离和避撞。为了进一步提高鲁棒性，我们引入了图不确定性特征（GUF）模块，这是一种基于图的模块，将可学习的噪声注入到图注意网络中，捕捉现实世界的不确定性，并增强在各种场景下的泛化能力。我们使用四个真实世界基准数据集对SafeCast进行了评估——下一代仿真（NGSIM）、高速公路无人机（HighD）、ApolloScape和澳门连接自动驾驶（MoCAD），涵盖高速公路、城市和混合自主交通环境。我们的模型在保持轻量级架构和低推理延迟的同时实现了最先进的（SOTA）准确性，突显了其在安全关键型AD系统中的实时部署潜力。

发布时间: 3/31/2025

查看原文

大型内插模型用于动态重构

作者: Remy Sabathier, Niloy J. Mitra, David Novotny

arXiv:2503.22537v1 宣布类型: 交叉研究摘要: 从视频数据中重构动态资产是许多计算机视觉和图形任务的核心。现有的4D重构方法受到特定类别模型或慢速优化方法的限制。受近期大型重构模型(LRM)的启发，我们提出了一种基于变换器的前馈解决方案——大型插值模型(LIM)，它通过一种新颖的因果一致性损失，实现时间上隐式3D表示的插值。给定时间 $t_0$ 和 $t_1$ 的隐式3D表示，LIM 可以生成任意连续时间 $t \in [t_0, t_1]$ 的变形形状，并在几秒钟内提供高质量的插值帧。此外，LIM 允许时间上的显式网格追踪，生成一个一致的uv纹理网格序列，可以直接集成到现有的生产流水线中。我们还使用LIM，结合基于扩散的多视图生成器，从单目视频中生成动态4D重构。我们在各种动态数据集上评估了LIM，将其与图像空间插值方法（例如，FiLM）和直接的三平面线性插值进行比较，并展示了明显的优越性。总的来说，LIM 是第一个能够在多种类别中实现高速跟踪4D资产重构的前馈模型。

发布时间: 3/31/2025

查看原文

AnnoPage 数据集：具有细粒度分类的文档中非文本元素数据集

作者: Martin Ki\v{s}\v{s}, Michal Hradi\v{s}, Martina Dvo\v{r}\'akov\'a, V\'aclav Jirou\v{s}ek, Filip Kersch

arXiv:2503.22526v1 声明类型: cross 摘要: 我们引入了AnnoPage数据集，这是一个包含7550页的历史文件的新颖集合，主要为捷克语和德语，时间跨度从1485年到当前，重点关注19世纪末和20世纪初。该数据集旨在支持文档布局分析和对象检测的研究。每页都标注了25类非文本元素（如图像、地图、装饰元素或图表）的轴对齐边界框（AABB），遵循捷克图像文件处理方法论。这些注解由专家图书管理员创建，以确保准确性和一致性。该数据集还包含了多个，主要是历史性的文档数据集的页面，以增强多样性和保持连续性。该数据集分为开发集和测试集，测试集精心选择以保持类别分布的连续性。我们提供了使用YOLO和DETR对象检测器的基线结果，为未来的研究提供参考点。AnnoPage数据集已公开发布在Zenodo上 (https://doi.org/10.5281/zenodo.12788419)，并提供了YOLO格式的地面真实注解。

发布时间: 3/31/2025

查看原文