arXiv 论文列表

作者: Le-Trung Nguyen, Ael Quelennec, Van-Tam Nguyen, Enzo Tartaglione

arXiv:2505.05086v1 类别: cross 摘要：设备端学习已成为AI开发的一个有前景的方向，特别是在其有可能减少设备-服务器通信引起的延迟问题和隐私风险，同时提高能效方面。尽管存在这些优势，但显著的内存和计算限制仍然是其部署的主要挑战。借鉴了之前关于低阶分解方法的研究，这些方法旨在解决反向传播中的激活内存瓶颈，我们提出了一种新颖的捷径方法作为替代方案。我们的分析和实验表明，与传统的训练方法相比，我们的方法可以减少激活内存的使用，最多可减少120.09倍，同时在传统基准测试中，整体训练FLOPs也可以最多减少1.86倍。

发布时间: 5/9/2025

查看原文

FG-CLIP：细粒度视觉与文本对齐

作者: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Gengshen Zhang, Dawei Leng, Yuhui Yin

arXiv:2505.05071v1 宣传类型: cross 摘要: 对比语言-图像预训练（CLIP）在图像-文本检索和零样本分类等多模态任务中表现出色，但由于其专注于粗粒度的短描述，因此在细粒度理解方面存在挑战。为了解决这一问题，我们提出了细粒度CLIP（FG-CLIP），通过三项关键创新增强细粒度理解。首先，我们利用大规模的多模态模型生成16亿个长描述-图像对，以捕捉全局级别的语义细节。其次，构建了一个高质量的数据集，包含1200万张图像和4000万个地区特定的边界框，这些边界框与详细的描述对齐，以确保精确且丰富的上下文表示。第三，我们整合了1000万个困难的细粒度负样本，以提高模型区分微妙语义差异的能力。为此，我们为这些数据精心设计了相应的训练方法。广泛的实验证明，FG-CLIP在各种下游任务中，包括细粒度理解、开放式词汇对象检测、图像-文本检索和通用多模态基准测试中，均优于原始的CLIP和其它最先进的方法。这些结果突显了FG-CLIP在捕获细粒度图像细节和提高整体模型性能方面的有效性。相关数据、代码和模型可在 https://github.com/360CVGroup/FG-CLIP 获取。

发布时间: 5/9/2025

查看原文

潮州野生：首个附有正写标注的潮州语数据集

作者: Linrong Pan, Chenglong Jiang, Gaoze Hou, Ying Gao

arXiv:2505.05056v1 交叉公告类型摘要：本文报告了潮州野生语料库的构建，该语料库包含潮州方言的野外潮州语音数据，时长为18.9小时，涵盖多个说话人口音和形式化及非正式表达，并提供精确的音标和拼音注释。此外，我们还提供了一些补充文本处理工具和资源，以促进对这种低资源语言的语音任务研究和应用，如自动语音识别（ASR）和文本转语音（TTS）。据我们所知，这是我们公开发布的首个带有准确音标注释的潮州语数据集。我们在语料库上进行了实验，结果验证了其在ASR和TTS任务中的有效性。

发布时间: 5/9/2025

查看原文

从傅里叶ptychographic显微镜测量进行直接图像分类而不进行重建

作者: Navya Sonal Agarwal, Jan Philipp Schneider, Kanchana Vaishnavi Gandikota, Syed Muhammad Kazim, John Meshreki, Ivo Ihrke, Michael Moeller

arXiv:2505.05054v1 交叉类型: cross 摘要: 穿孔光谱显微镜(Fourier Ptychographic Microscopy, FPM) 的计算成像技术能够实现高分辨率成像并具有广视野，可作为医疗应用中细胞分类等极其宝贵的工具。然而，从数十甚至数百次测量中重建高分辨率图像计算成本昂贵，尤其是对于广视野来说。因此，在本文中，我们研究了直接在 FPM 测量中分类图像内容而不先进行重建步骤的想法。我们展示了卷积神经网络(CNN)可以从测量序列中提取有意义的信息，显著优于单个带限图像的分类性能（最多可提高12%），同时与高分辨率图像重建相比，其效率更高。此外，我们还证明了对多个原始测量进行学习多重化可以在保持分类准确性的前提下，显著减少数据量（进而大幅度减少获取时间）。

发布时间: 5/9/2025

查看原文

多语言推文的图像-文本关系预测

作者: Mat\=iss Rikters, Edison Marrese-Taylor

arXiv:2505.05040v1 Announce Type: cross 摘要：各种社交媒体网络现在已有十多年允许上传媒体内容。然而，仍然不清楚这些媒体内容与发布的文本之间的关系，甚至可能根本不存在这种关系。在这项工作中，我们探讨了多语言视觉-语言模型如何在不同语言中处理图像-文本关系预测任务，并从爱沙尼亚语的推特帖子及其手动翻译成英语的数据集中构建了一个专用的平衡基准数据集。我们将我们的结果与之前的工作进行了比较，并展示了最近发布的视觉-语言模型检查点在这一任务上的能力不断增强，但仍有很多改进的空间。

发布时间: 5/9/2025

查看原文

生成可靠的合成临床试验数据：超参数优化和领域约束的作用

作者: Waldemar Hahn, Jan-Niklas Eckardt, Christoph R\"ollig, Martin Sedlmayr, Jan Moritz Middeke, Markus Wolfien

arXiv:2505.05019v1 宣告类型: cross 摘要: 生成合成临床试验数据为缓解医疗研究中的隐私担忧和数据可访问性限制提供了有希望的方法。然而，确保合成数据集保持高保真度、实用性和遵守领域特定约束依然是一个关键挑战。虽然超参数优化(HPO)已被证明可以提高生成模型的性能，但不同优化策略对合成临床数据的有效性仍然不清楚。本研究系统评估了四种HPO策略在八种生成模型中的应用，比较了单指标优化与综合指标优化方法。我们的结果表明，HPO 一致地提高了合成数据质量，TVAE、CTGAN 和 CTAB-GAN+ 分别实现了高达 60%、39% 和 38% 的改进。综合指标优化方法优于单一指标优化方法，产生了更平衡和更具通用性的合成数据集。有趣的是，单独的 HPO 无法确保具有临床效用的合成数据，因为所有模型都违反了基本的生存约束。预处理和后处理在减少这些违反方面发挥了关键作用，缺乏稳健处理步骤的模型在高达 61% 的情况下产生了无效的数据。这些发现强调了在 HPO 中整合明确的领域知识的必要性，以创建高质量的合成数据集。我们的研究为改进合成数据生成提供了可操作的建议，未来的研究需要进一步细化指标选择并在更大规模的数据集上验证这些发现，以提高临床适用性。

发布时间: 5/9/2025

查看原文

基于代理的建模方法用于连续身份验证的自由文本键盘动态分析

作者: Roberto Dillon, Arushi

arXiv:2505.05015v1 交叉类型摘要：利用自由文本键盘动态的连续认证系统可以在多因素认证设置中提供一个有希望的额外安全层，并且可以在不影响用户使用体验的情况下透明地使用。本研究通过使用基于代理的模型（ABM）模拟机械键盘和膜键盘上多样化的打字模式，来探索行为生物特征的有效性。具体而言，我们从五个独特的代理中生成合成的按键数据，在每秒更新一次的滑动5秒窗口内捕捉与停留时间、飞行时间和错误率相关的特征。我们评估了两种机器学习方法，即单类支持向量机（OC-SVM）和随机森林（RF），以进行用户验证。结果揭示了性能上的显著差异：虽然单类SVM无法区分每个组内的不同用户，随机森林实现了稳健的同一键盘内用户识别（准确率>0.7），但在同一用户跨键盘的情况下的推广能力较弱，突显了键盘硬件对打字行为的显著影响。这些发现表明：（1）针对特定键盘的用户配置文件可能是可靠认证所必需的，（2）类似于随机森林的集成方法在捕捉细微的用户特定模式方面优于单类SVM。

发布时间: 5/9/2025

查看原文

stabStitch++：基于时空双向变换的无监督在线视频拼接

作者: Lang Nie, Chunyu Lin, Kang Liao, Yun Zhang, Shuaicheng Liu, Yao Zhao

arXiv:2505.05001v1 跨类型发布摘要：我们将视频缝合重新定向到一个新兴问题，称为变形抖动(warp shake)，该问题揭示了在将图像缝合扩展到视频缝合时，由于顺序不平滑的变形导致的时间内容抖动。即使输入视频是稳定的，缝合视频也必然会引发不希望的变形抖动并影响视觉体验。为了解决这一问题，我们提出了一种新颖的视频缝合框架 StabStitch++，旨在通过无监督学习同时实现空间缝合和时间稳定性。首先，不同于现有的基于学习的图像缝合解决方案通常将一个图像拉伸以与另一个图像对齐，我们假设一个虚拟中间平面，并将原始图像平面投影到该平面上。具体来说，我们设计了一个可微分的双向分解模块，将仿射变换解耦，并将其纳入我们的空间变形中，均匀地将对齐负担和投影失真分布在两个视角上。接着，借鉴视频稳定中相机路径的做法，我们通过精心整合空间和时间变形推导出了视频缝合中的拼接轨迹的数学表达式。最后，我们提出了一个变形平滑模型，通过混合损失来生成稳定缝合的视频，该损失同时鼓励内容对齐、轨迹平滑和在线协作。与 StabStitch 相比，StabStitch++ 不妥协，同时优化了这两方面，尤其是在在线模式下。为了建立评估基准并训练学习框架，我们构建了一个包含丰富相机运动和场景多样性的视频缝合数据集。实验表明，StabStitch++ 在缝合性能、鲁棒性和效率方面超越了当前的解决方案，通过构建实时在线视频缝合系统为该领域带来了显著的进步。

发布时间: 5/9/2025

查看原文

重思上下文学习中的不变性

作者: Lizhe Fang, Yifei Wang, Khashayar Gatmiry, Lei Fang, Yisen Wang

arXiv:2505.04994v1 Announce Type: cross 摘要：上下文学习（ICL）已成为自回归大型语言模型的关键能力之一，但它受到显著的上下文示例顺序敏感性的影响，尤其是在它们相互独立的情况下。为了应对这一问题，近期的研究引入了几种ICL的变体算法，这些算法实现了排列不变性。然而，许多现有的方法在性能上并不与标准的自回归ICL算法相当。在本工作中，我们确定了设计不变ICL算法的两个关键要素：信息不泄露和上下文相关性，而现有的任何方法都无法同时实现这两个特性。这些研究使我们提出了不变ICL（InvICL）这一方法，旨在在保持这两个属性的同时实现ICL的不变性。通过对各个基准数据集的实证研究，我们发现InvICL在大多数情况下都超过了先前的模型，无论是不变的还是非不变的模型，展示了在不同输入长度下优越的泛化能力。源代码可在 https://github.com/PKU-ML/InvICL 获取。

发布时间: 5/9/2025

查看原文

两介导变量下的归因概率分解

作者: Yuta Kawakami, Jin Tian

arXiv:2505.04983v1 宣告类型: cross 摘要: 对因果作用概率（PoC）的中介分析提供了一个基础框架，用于评估通过不同因果途径治疗引起某一事件的必要性和充分性。因果中介分析的主要目标之一是将总效应分解为特定路径的组成部分。在本研究中，我们探讨了特定路径的必要性和充分性概率（PNS），以将总的PNS分解为在治疗和结果之间不同因果途径上特有的组成部分，并考虑了两个中介变量。我们定义了用于分解的特定路径PNS，并提供了识别定理。此外，我们进行了数值实验，以评估所提出的有限样本估计器的性质，并通过一个实际教育数据集展示了它们的实际应用。

发布时间: 5/9/2025

查看原文