arXiv 论文列表

作者: Sewoong Lee, Adam Davies, Marc E. Canby, Julia Hockenmaier

arXiv:2503.24277v1 交叉公告类型摘要：稀疏自编码器（SAE）已成为现代机制可解释性的主力军，但使用顶级-$k$风格激活函数的领先SAE方法缺乏选择超参数$k$的理论依据。SAE基于线性表示假设（LRH），该假设假定大型语言模型（LLM）的表示是线性编码的，超级叠加假设（SH）则认为模型中的特征数可以超过其维度。我们证明了，根据LRH和SH的正式定义，稀疏特征向量（SAE学习的LLM密集嵌入的潜在表示的大小）可以使用相应的密集向量进行近似，并具有闭式误差界。为了可视化这一点，我们提出了ZF图，它揭示了LLM隐藏嵌入和SAE特征向量之间的一种未知关系，使我们能够对预训练SAE的特征向量在给定输入下的过度激活或欠激活程度进行首次经验测量。相应地，我们引入了近似特征激活（AFA），它近似了地面真实稀疏特征向量的大小，并提出了一个新的评估度量，该度量源自AFA，用于评估输入和激活之间的对齐程度。我们还利用AFA引入了一个新的SAE架构，即top-AFA SAE，导致SAE具有以下特点：（a）更符合理论依据；（b）消除了调整SAE稀疏超参数的需要。最后，我们实证证明，top-AFA SAE在重建损失方面与最先进的顶级-$k$ SAE相当，而无需调整超参数$k$。我们的代码可在以下链接获取：https://github.com/SewoongLee/top-afa-sae。

发布时间: 4/1/2025

查看原文

视觉 acoustic 字段

作者: Yuelei Li, Hyunjin Kim, Fangneng Zhan, Ri-Zhao Qiu, Mazeyu Ji, Xiaojun Shan, Xueyan Zou, Paul Liang, Hanspeter Pfister, Xiaolong Wang

arXiv:2503.24270v1 交叉公告类型摘要：物体被击打时会产生不同的声音，人类可以根据物体的外观和材质特性直观地推测其声音。受到这种直觉的启发，我们提出了Visual Acoustic Fields框架，该框架使用3D高斯斑点绘制（3DGS）在3D空间内连接击打声音和视觉信号。我们的方法包含两个关键模块：声音生成和声音定位。声音生成模块利用条件扩散模型，该模型从特征增强的3DGS渲染出的多尺度特征中生成逼真的击打声音。同时，声音定位模块使得可以查询特征增强的3DGS表示的3D场景，根据声源定位击打位置。为了支持这一框架，我们引入了一种新的场景级视觉-声音样本对的采集管线，实现了捕获图像、冲击位置和相应声音之间的对齐。据我们所知，这是第一个在3D上下文中连接视觉和声学信号的数据库。在我们数据集上的广泛实验表明，Visual Acoustic Fields在生成合乎情理的冲击声音并准确定位冲击声源方面非常有效。我们的项目页面在 https://yuelei0428.github.io/projects/Visual-Acoustic-Fields/。

发布时间: 4/1/2025

查看原文

高风险领域可靠机器学习中的极端错误概率新统计框架

作者: Umberto Michelucci, Francesca Venturini

arXiv:2503.24262v1 类型: cross 摘要：机器学习在高风险领域至关重要，但传统的验证方法依赖于平均指标如均方误差（MSE）或绝对误差平均值（MAE），这些指标无法量化极端错误。最坏情况下的预测失败可能产生重大后果，但当前框架缺乏评估其概率的统计基础。在此研究中，提出了一个新的统计框架，基于极值理论（EVT），提供了一种严谨的方法来估算最坏情况下的失败。通过对合成和真实世界数据集的应用，该方法展示了其能够稳健地估计灾难性失败的概率，克服了标准交叉验证的基本限制。本文确立了EVT为评估模型可靠性的基本工具，在不确定量化对决策或科学分析至关重要的新兴技术中确保更安全的AI部署。

发布时间: 4/1/2025

查看原文

超越单模态：GAN集成用于多样医疗数据生成

作者: Lorenzo Tronchin, Tommy L\"ofstedt, Paolo Soda, Valerio Guarrasi

arXiv:2503.24258v1 Announce Type: cross 摘要：生成式AI的发展，特别是在医学成像领域的应用，面临着确保合成数据生成的高保真度、多样性和效率的三难困境。虽然生成式对抗网络（GANs）在各种应用中显示出潜力，但它们仍然面临着模式崩溃和真实数据分布覆盖不足的挑战。本文探讨了使用GAN集群来克服这些限制，特别是在医学成像领域。通过解决一个平衡保真度和多样性的多目标优化问题，我们提出了一种为医学数据定制GAN集群的方法。所选的集群能够生成多样化的合成医学图像，这些图像代表了真实数据分布，且计算上效率高。每个集群中的模型都带来了独特的贡献，确保了最小的冗余。我们使用三个不同的医学数据集进行了全面评估，测试了22种不同的GAN架构，这些架构具有不同的损失函数和正则化技术。通过在不同的训练周期采样模型，我们构建了110种独特的配置。结果表明，GAN集群能够提高合成医学图像的质量和实用性，从而提高下游任务（如诊断建模）的效率。

发布时间: 4/1/2025

查看原文

基于时空预测的细粒度出行生成矩阵预测及在拼车中的应用

作者: Run Yang, Runpeng Dai, Siran Gao, Xiaocheng Tang, Fan Zhou, Hongtu Zhu

arXiv:2503.24237v1 类型: cross 摘要：网络乘客请求的空间-时间预测的准确度对于网约车平台有效政策设计至关重要。了解未来时间段内各区域间的需求总量，使平台能够提前准备充足的供应，从而增加满足乘客需求的可能性，并将空闲司机重新分配到需求潜力高的区域，以优化整体供应-需求平衡。本文深入探讨了在细粒度空间层面预测乘客源头-目的地（Origin-Destination，OD）需求，特别是在面临广泛的本地区域集时的任务。尽管这项任务具有巨大的实际价值，但在研究社区中的研究还相对较少。为填补这一空白，我们提出了一种名为OD-CED的新预测模型，该模型包括一种无监督的空间粗化技术以缓解数据稀疏性，并采用编码器-解码器架构以捕捉语义和地理依赖关系。通过实际实验，OD-CED展示了卓越的结果。当处理OD矩阵的稀疏性超过90%时，与传统统计方法相比，它实现了多达45%的均方根误差和60%的加权平均绝对百分比误差的显著降低。

发布时间: 4/1/2025

查看原文

什么、如何、在哪里以及效果如何？关于大型语言模型测试时缩放的综述

作者: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Irwin King, Xue Liu, Chen Ma

arXiv:2503.24235v1 Announce Type: cross 摘要：随着对预训练时代（数据和参数）计算扩展的热情逐渐减退，测试时缩放（TTS），也被称为“测试时计算”，已成为一个突出的研究焦点。最近的研究表明，TTS 可以进一步激发大型语言模型（LLMs）的问题解决能力，使其在专业化推理任务（如数学和编程）以及开放式问答等通用任务中取得显著突破。然而，尽管这一领域最近的努力激增，仍然迫切需要一份全面的综述，提供系统性的理解。为了填补这一空白，我们提出了一种统一的多维框架，在TTS 研究的四个核心维度上进行了结构化：要扩缩什么，如何扩缩，在哪扩缩，以及扩缩效果如何。基于这一分类，我们对方法、应用场景和评估方面进行了广泛的回顾，并呈现了一种有组织的分解，突出了个体技术在更广泛TTS 景观中的独特功能角色。从这一分析中，我们提炼了TTS 到目前为止的主要发展轨迹，并提供了实用部署的手册指南。此外，我们确认了一些开放性挑战，并提出了有前景的未来方向的见解，包括进一步的扩展、澄清技术的功能本质、泛化到更多的任务和更多的可归因性。

发布时间: 4/1/2025

查看原文

MB-ORES: 远景感知中多支路对象推理器的视觉接地

作者: Karim Radouane, Hanane Azzag, Mustapha lebbah

arXiv:2503.24219v1 公告类型: cross 摘要: 我们提出了一种统一框架，将物体检测（OD）和视觉定位（VG）集成到遥感（RS）图像中。为了支持常规物体检测并为VG任务建立直观先验，我们使用引用表达数据微调一个开放集合对象检测器，将其视为半监督物体检测任务。在第一阶段，我们为每张图像构建了一个图表示法，包括对象查询、类别嵌入和提议位置。然后，我们的任务感知架构处理此图以执行VG任务。该模型由以下两部分组成：（i）一个多分支网络，整合空间、视觉和类别特征生成任务感知提议，以及（ii）一个物体推理网络，该网络为提议分配概率，随后是一个软选择机制以最终定位引用对象。我们的模型在OPT-RSVG和DIOR-RSVG数据集上表现出色，在保持经典物体检测能力的同时，显著优于现有最先进的方法。代码将在我们的仓库中可用：\url{https://github.com/rd20karim/MB-ORES}。

发布时间: 4/1/2025

查看原文

DiET-GS：扩散先验和事件流辅助的运动去模糊3D 高斯点云渲染

作者: Seungjun Lee, Gim Hee Lee

arXiv:2503.24210v1 Announce Type: cross 摘要：从模糊的多视角图像中重建清晰的3D表示是计算机视觉中长期存在的问题。近期的工作试图通过利用事件相机来增强运动模糊的高质量新视角合成，从而受益于高动态范围和微秒级的时间分辨率。然而，它们往往在恢复不准确的颜色或丢失精细细节方面达到次最优的视觉效果。在本文中，我们提出了一种新颖的方法DiET-GS，其融合了扩散先验和事件流辅助的运动去模糊3DGS框架。我们的框架有效利用了无模糊事件流和扩散先验在两阶段训练策略中的优势。具体而言，我们引入了新的框架，利用事件双积分来约束3DGS，从而实现准确的颜色和清晰的细节。此外，我们提出了一种简单的方法，利用扩散先验进一步增强边缘细节。在合成和真实世界数据上的定性和定量结果表明，我们的DiET-GS能够显著提高新视角的质量，相较于现有的基线方法。我们的项目页面为https://diet-gs.github.io

发布时间: 4/1/2025

查看原文

输出约束作为攻击表面：利用结构化生成绕过LLM安全机制

作者: Shuoming Zhang, Jiacheng Zhao, Ruiyuan Xu, Xiaobing Feng, Huimin Cui

arXiv:2503.24191v1 安全公告类型: cross 摘要: 内容警告：本文可能包含由大规模语言模型（LLMs）生成的不安全或有害内容，可能会引起读者的反感。大规模语言模型（LLMs）广泛用作通过结构化输出API的工具平台，以确保语法合规性，从而实现与现有软件（如代理系统）的稳定集成。然而，由语法引导的结构化输出功能提供了重大的安全漏洞。在本工作中，我们揭示了一个与传统数据面漏洞正交的关键控制面攻击面。我们引入了约束解码攻击（CDA），这是一种新型逃逸类攻击，利用结构化输出约束绕过安全机制。不同于以往专注于输入提示的攻击，CDA 通过将恶意意图嵌入到模式级语法规则（控制面）中，同时保持无害的表面提示（数据面）来运作。我们以一个概念验证链条枚举攻击实例化了这一点，在五项安全基准中实现了96.2%的攻击成功率，包括专有的和开源权重大语言模型（LLM），包括GPT-4o和Gemini-2.0-flash。我们的研究成果识别了当前大语言模型架构中的一个关键安全盲点，并敦促在大语言模型安全性方面进行范式转变以应对控制面漏洞，因为当前机制仅关注数据面威胁，使关键系统处于风险中。

发布时间: 4/1/2025

查看原文

使用多模态机器学习预测非小细胞肺癌的靶向疗法耐药性

作者: Peiying Hua, Andrea Olofson, Faraz Farhadi, Liesbeth Hondelink, Gregory Tsongalis, Konstantin Dragnev, Dagmar Hoegemann Savellano, Arief Suriawinata, Laura Tafe, Saeed Hassanpour

arXiv:2503.24165v1 干预类型: 交叉摘要: 肺癌是全球癌症死亡的主要原因，非小细胞肺癌（NSCLC）已成为其最常见的亚型。在NSCLC患者中，大约32.3%的患者具有表皮生长因子受体（EGFR）基因突变。奥希替尼是一种第三代EGFR酪氨酸激酶抑制剂（TKI），已在治疗具有激活和T790M抗性EGFR突变的NSCLC患者中展示了显著的疗效。尽管其疗效已经得到证实，但药物耐药性仍是患者充分利用奥希替尼的重大挑战。缺乏一套标准工具来准确预测包括奥希替尼在内的TKI耐药性，仍然是一个关键障碍。为弥补这一差距，我们在本研究中开发了一种可解释的多模态机器学习模型，旨在预测晚期NSCLC患者中具有激活EGFR突变的患者对奥希替尼的耐药性，在多机构数据集上的c-index为0.82。该机器学习模型利用患者就诊和医学评估过程中常规收集的可用数据，以促进精准肺癌管理和知情治疗决策。通过整合多种数据类型，如组织学图像、下一代测序（NGS）数据、人口统计学数据和临床记录，我们的多模态模型可以生成有针对性的建议。我们的实验结果也证明了多模态模型在c-index方面优于单模态模型（0.82与0.75和0.77相比），从而突显了在患者预后预测中结合多种模态的益处。

发布时间: 4/1/2025

查看原文