arXiv 论文列表

作者: Xin Liao, Bing Yang, Tan Dongli, Cai Yu

arXiv:2504.15209v1 交叉公告类型摘要：水质监测是环境保护的重要组成部分，广泛部署了大量的监测设备以监测水质。由于数据采集故障、传感器和通信故障等不可避免的因素，水质监测数据在时间上出现了缺失值，导致高维稀疏（HDS）水质数据（WQD）。简单的粗略填补缺失值会导致结果不准确，影响相关措施的实施。因此，本文提出了一种因果卷积低秩表示（CLR）模型，用于填补缺失的WQD，以提高WQD的完整性。该模型采用双管齐下的理念：a) 应用因果卷积操作来考虑低秩表示的时序依赖性，从而引入时序信息以提高填补准确性；b) 实施超参数自适应方案，在模型训练过程中自动调整最佳超参数，从而减少繁琐的手动超参数调整。对三个实际水质数据集进行的实验研究表明，所提出的CLR模型在填补准确性及时间成本方面均优于部分现有最先进的填补模型，并且表明所提出的模型为环境监测提供了更为可靠的支持决策。

发布时间: 4/22/2025

查看原文

计算优化的大型语言模型在规模上能证明泛化效果更好

作者: Marc Finzi, Sanyam Kapoor, Diego Granziol, Anming Gu, Christopher De Sa, J. Zico Kolter, Andrew Gordon Wilson

arXiv:2504.15208v1 通用类型: 同类研究摘要: 为什么更大的语言模型能更好地泛化？为研究这个问题，我们开发了一种在 Chinchilla 标度律所描述的计算最优条件下，针对大型语言模型（LLM）预训练目标的泛化边界。我们引入了一种新颖的、完全经验的 Freedman 类鞅不等式，通过考虑损失函数的方差，从而收紧了现有的边界。这个泛化边界可以分解为三个可解释的组成部分：每个标记的参数数量、损失方差以及在固定位速率下的量化误差。当将计算最优的语言模型放大时，每个数据点的参数数量保持不变；然而，损失方差和量化误差都会减少，这意味着更大的模型应该有更小的泛化差距。我们从信息论的角度探讨了为什么更大的模型更容易量化，表明它们以新信息的集成速度比计算最优边界的容量更慢。从这些发现中，我们生产了一个泛化差距的标度律，其边界随规模增大而变得可预测地更强。

发布时间: 4/22/2025

查看原文

TREC 2024 RAG 轨道的辅助评估：人类评判员与大语言模型评判员的对比

作者: Nandan Thakur, Ronak Pradeep, Shivani Upadhyay, Daniel Campos, Nick Craswell, Jimmy Lin

arXiv:2504.15205v1 类型: cross 摘要: 从包含“真实信息”的源文档中引用信息以生成答案的能力（ Retrieval-augmented generation, RAG）使大型语言模型（LLMs）能够生成带有引文的答案，从而减少系统的幻想。在RAG评估中，“支持”是一个关键因素，即所引用的文档中的信息是否支持该答案。为此，我们对36个主题进行了大规模的比较研究，共有45个参与者提交了TREC 2024 RAG赛道的任务，将自动LLM裁判员（GPT-4o）的评估结果与人类裁判员进行了比较，以评估支持性。我们考虑了两种条件：（1）从零开始的完全手动评估，以及（2）在LLM预测后的手动评估。结果显示，在完全手动评估的情况下，人类和GPT-4o的预测匹配完美（在一个三级尺度上）的比例为56%，而在手动评估后编辑条件下，这一比例增加到72%。此外，通过仔细分析无偏见研究中的分歧，我们发现独立的人类裁判员与GPT-4o的相关性高于人类裁判员，这表明LLM裁判员可以成为支持评估的可靠替代方案。总之，我们提供了人类和GPT-4o错误的定性分析，以帮助指导未来支持评估的迭代。

发布时间: 4/22/2025

查看原文

零 shot，但需付出何种代价？揭秘MILS的LLM-CLIP框架在图像 captioning 中暗藏的开销

作者: Yassir Benhammou, Alessandro Tiberio, Gabriel Trautmann, Suman Kalyan

arXiv:2504.15199v1 宣告类型: cross 摘要: MILS（多模态迭代LLM解算器）是一种最近发布的框架，声称“LLMs可以看和听而无需任何训练”，通过对零样本图像描述的迭代、LLM-CLIP 基础方法的应用来实现。虽然MILS方法展示了良好的性能，但我们的调查揭示了其成功背后隐藏着高昂的计算成本，因为其昂贵的多步精炼过程。相比之下，BLIP-2和GPT-4V通过简化的单步方法实现了具有竞争力的结果。我们推测，MILS迭代过程中的重大开销可能会削弱其实际应用中的优势，从而挑战“可以在不付出大量资源代价的情况下达到零样本性能”的说法。这项工作首次揭示并量化了MILS在输出质量和计算成本之间的trade-offs，为更高效的多模态模型设计提供了宝贵的见解。

发布时间: 4/22/2025

查看原文

基于AI的MRI乳腺密度量化及其与乳腺X线摄影评估的关系

作者: Yaqian Chen, Lin Li, Hanxue Gu, Haoyu Dong, Derek L. Nguyen, Allan D. Kirk, Maciej A. Mazurowski, E. Shelley Hwang

arXiv:2504.15192v1 交叉公告类型摘要：乳腺密度是乳腺癌的一个已确立的风险因素。近年来，乳腺MRI作为与乳腺X线摄影的辅助检查引起了关注，因为这种影像学方法提供了与乳腺组织相关的正交且高度定量的评估。然而，其三维性质带来了分析上的挑战，尤其是在不同切片中辨别和聚合复杂结构方面。在这里，我们应用了一个内部开发的机器学习算法来评估三个乳腺MRI数据集中的正常乳腺密度。乳腺密度在不同数据集之间保持一致（0.104 - 0.114）。不同年龄组的分析也表明数据集之间的一致性很强，并且证实了先前研究中报告的随着年龄增长密度下降的趋势。MRI乳腺密度与乳腺X线摄影乳腺密度相关，尽管一些显著差异表明某些乳腺密度成分仅在MRI上被捕捉到。未来的工作将确定如何将MRI乳腺密度与当前工具结合以提高未来乳腺癌风险预测的准确性。

发布时间: 4/22/2025

查看原文

欧盟AI法案的通用人工智能行为准则安全与安全措施现有工业实践

作者: Lily Stelling, Mick Yang, Rokas Gipi\v{s}kis, Leon Staufer, Ze Shen Chin, Sim\'eon Campos, Michael Chen

arXiv:2504.15181v1 类型:跨领域摘要:本报告详细比较了《欧盟人工智能法案》通用人工智能(GPAI)模范行为守则(第三草案)中提出的措施与当前领先人工智能公司所采用的实践方法。随着欧盟准备实施对GPAI模型提供商的法律义务，模范行为守则将成为将法律要求与具体技术承诺相结合的关键。我们的分析集中在守则的“安全与安全”部分，这部分仅适用于最先进模型的提供商(承诺II.1-II.16)，以及与每一项措施相关的当前公开文档引用。我们系统地审查了来自包括OpenAI、Anthropic、Google DeepMind、Microsoft、Meta、Amazon等超过十几家公司的不同文件类型，包括公司前沿安全框架和模型卡片等。本报告不旨在作为法律合规性的指示，也不对模范行为守则或公司政策采取任何规定性观点。相反，本报告旨在通过提供先例证据来促进监管机构与GPAI模型提供商之间的持续对话。

发布时间: 4/22/2025

查看原文

具有可变感受野的高效航拍图像检测

作者: Liu Wenbin

arXiv:2504.15165v1 宣告类型: cross 摘要: 无人机(UAV)平台进行空域物体检测面临着严重的挑战，包括小于10像素的目标、密集遮挡和严格的计算约束。现有的检测器在精度和效率之间难以平衡，主要是由于僵化的感受野和冗余的架构。为了解决这些局限性，我们提出了具有变感受野的DETR (VRF-DETR) 检测器，该检测器结合了三个核心技术组件：1) 多尺度上下文融合（MSCF）模块，通过自适应空间注意和门控多尺度融合动态重新校准特征；2) 门控卷积（GConv）层，通过深度可分离操作和动态门控实现参数高效的地方上下文建模；3) 通过级联的全局-局部交互逐级解缠遮挡物体的门控多尺度融合（GMCF）瓶颈。在VisDrone2019数据集上的实验表明，VRF-DETR仅使用13.5百万个参数即可达到51.4%的mAP_50和31.8%的mAP_50:95。这项工作为无人机检测任务建立了新的效率-准确性的非劣解前沿。

发布时间: 4/22/2025

查看原文

无 landmarks 的术前到术中注册在腹腔镜肝脏切除中

作者: Jun Zhou, Bingchen Gao, Kai Wang, Jialun Pei, Pheng-Ann Heng, Jing Qin

arXiv:2504.15152v1 注册类型：cross 摘要：通过将预手术3D模型叠加到术中2D帧上，肝脏注册可以协助外科医生更清晰地感知肝脏的空间解剖结构，从而提高手术成功率。现有的注册方法高度依赖基于解剖标志的工作流程，面临两个主要限制：1）含糊的解剖标志定义无法提供有效的注册标记；2）在形状变形建模中对术中肝脏视觉信息的整合不足。为了解决这些挑战，本文提出了一种基于有效自我监督学习的无解剖标志的预手术到术中注册框架，称为\ourmodel。该框架将传统的3D-2D工作流程转换为3D-3D注册管道，然后再将该管道分解为刚性注册和非刚性注册子任务。\ourmodel 首先引入了一种特征解耦的变压器来学习稳健的对应关系，以恢复刚性变换。进一步地，设计了一种结构正则化变形网络，以调整预手术模型，使其与术中肝脏表面对齐。该网络通过低秩变压器网络中的几何相似性建模捕捉结构相关性。为了便于验证注册性能，我们还构建了一个包含21名患者肝脏切除视频的体内注册数据集，称为\emph{P2I-LReg}，包含了346个关键帧，提供了肝脏的全局视图，同时附有肝脏面具注释和校准的相机固有参数。在合成数据集和体内数据集上的广泛实验和用户研究表明了我们方法的优越性和潜在的临床应用潜力。

发布时间: 4/22/2025

查看原文

C2RUST-BENCH：用于C到Rust转换评估的最小化代表数据集

作者: Melih Sirlanci, Carter Yagemann, Zhiqiang Lin

arXiv:2504.15144v1 宣传类型：交叉摘要：尽管在过去二十年中对漏洞检测做出了努力，但内存安全漏洞仍然是一个关键问题。近期的报告表明，关键解决方案是转向内存安全语言。为此，C向Rust的转译变得流行起来，以解决C程序中的内存安全问题。近期的工作提出了C向Rust的转译框架；然而，完整的评估数据集缺失。虽然一个解决方案是整理一个足够大的数据集，这会增加自动化框架的分析时间，以及在某些情况下手动努力的时间。在这项工作中，我们构建了一种方法，从大量函数中选择函数，以构建一个最小化但仍具代表性的数据集，用于评估C向Rust的转译。我们提出了C2RUST-BENCH，它包含2905个函数，这些函数代表了C向Rust的转译，是从15503个真实程序函数中选择出来的。

发布时间: 4/22/2025

查看原文

知识图谱增强的多模态实体链接

作者: Juyeon Kim, Geon Lee, Taeuk Kim, Kijung Shin

arXiv:2504.15135v1 声明类型: cross 摘要：实体链接（EL）将文本提及与其相应的知识库实体对齐，促进了诸如语义搜索和问答等应用。近期在多模态实体链接（MEL）方面的进展表明，结合文本和图像可以减少歧义并提高对齐准确度。然而，大多数现有的MEL方法忽视了以知识图谱（KG）三元组形式提供的丰富结构信息。在本文中，我们提出了一种新型框架KGMEL，该框架利用KG三元组来增强MEL。具体而言，该框架分为三个阶段：（1）生成：通过结合基于文本和图像的视觉语言模型生成高质量的三元组。（2）检索：通过对比学习学习联合提及-实体表示，该表示综合了文本、图像和（生成的或KG）三元组，以检索每个提及的候选实体。（3）重排序：对候选实体的KG三元组进行细化，并通过大型语言模型来识别与提及匹配最佳的实体。基准数据集上的广泛实验表明，KGMEL在现有方法中表现出色。我们的代码和数据集可在以下链接获取：https://github.com/juyeonnn/KGMEL。

发布时间: 4/22/2025

查看原文