arXiv 论文列表

作者: Qi Wang, Tianfei Zhou, Ye Yuan, Rui Mao

arXiv:2502.06327v1 安装类型：跨领域摘要：持续图学习（CGL），其目标是通过不断进化的图数据来适应新任务，同时不忘之前的知识，受到了科研界的广泛关注。主流解决方案采用基于记忆回放的想法，即缓存以前任务中的代表性数据，以便重新训练图模型。然而，这种方法在不断进化的图数据上面临可扩展性问题，并引发了数据隐私方面的担忧。受最近基于提示学习范式进展的启发，本文引入了一种新颖的基于提示的持续图学习（PROMPTCGL）框架，该框架为每个新到来的任务学习一个单独的提示，并保持底层图神经网络模型固定。这样，PROMPTCGL 自然地避免了之前任务知识的重大遗忘。更具体地说，我们提出了分层提示策略，从特征级和拓扑级指导模型，以全面应对动态持续学习中任务图的变化。此外，我们开发了一个个性化提示生成器，在生成每个图节点的定制提示的同时，尽可能减少所需提示的数量，从而保持恒定的内存消耗，不论图的规模大小。在四个基准上的广泛实验表明，PROMPTCGL 达到了现有 CGL 方法的优越性能，同时显著降低了内存消耗。我们的代码可在 https://github.com/QiWang98/PromptCGL 获取。

发布时间: 2/11/2025

查看原文

Uni去moire化：通过数据生成与合成迈向通用图像去moire化

作者: Zemin Yang, Yujing Sun, Xidong Peng, Siu Ming Yiu, Yuexin Ma

arXiv:2502.06324v1 交叉类型摘要：图像褪moire化是图像恢复中最具挑战性的任务之一，主要是由于moire图案的不可预测性和各向异性所致。受训练数据数量和多样性限制，当前方法往往会对单一的moire域过拟合，导致对于新域的性能下降，并限制了其在实际应用中的鲁棒性。在本文中，我们提出了一种通用图像褪moire化解决方案UniDemoire，具有优越的泛化能力。值得注意的是，我们提出了创新且有效的数据生成和合成方法，可以自动提供大量高质量的moire图像来训练通用褪moire化模型。我们的大量实验证明了我们方法在通用图像褪moire化方面的前沿性能和广泛潜力。

发布时间: 2/11/2025

查看原文

从像素到组件：特征向量掩码在视觉表示学习中的应用

作者: Alice Bizeul, Thomas Sutter, Alain Ryser, Bernhard Sch\"olkopf, Julius von K\"ugelgen, Julia E. Vogt

arXiv:2502.06314v1 类型: cross 摘要: 从图像的可见部分预测被遮罩的部分是一种强大的自监督方法，用于视觉表示学习。然而，随机遮罩像素块的常见做法表现出某些失败模式，这可能会阻止学习有意义的高层特征，这对于下游任务是必需的。我们提出了替代的遮罩策略，该策略作用于数据的适当变换，而不是作用于原始像素。具体来说，我们执行主成分分析，然后随机遮罩一部分成分，这占数据方差的固定比例。学习任务则变成从可见部分重构遮罩部分。与像素局部块相比，图像的主成分携带更多信息。因此，我们假设从可见部分预测被遮罩的部分包含更多的高层特征，使得我们的遮罩策略能够提取更有用的表示。这得到了我们的实证结果的支持，这些结果显示基于组件的遮罩而非像素遮罩在图像分类性能上有所提升。因此，我们的方法构成了一种简单且稳健的数据驱动替代传统图像遮罩建模方法。

发布时间: 2/11/2025

查看原文

SeaExam 和 SeaBench：在东南亚本地多语言问题下的语言模型基准测试

作者: Chaoqun Liu, Wenxuan Zhang, Jiahao Ying, Mahani Aljunied, Anh Tuan Luu, Lidong Bing

arXiv:2502.06298v1 交叉类型公告摘要：本研究引入了两个新的基准测试，名为SeaExam和SeaBench，旨在评估大型语言模型（LLMs）在东南亚（SEA）应用场景中的能力。与现有的主要来源于英语翻译的多语言数据集不同，这些基准测试是基于东南亚地区的实际场景构建的。SeaExam源自地区性教育考试，形成了涵盖当地历史和文学等主题的综合数据集。相比之下，SeaBench是围绕多轮、开放式任务构建的，这些任务反映了SEA社区中的日常互动。我们的评估表明，与已有的翻译基准测试相比，SeaExam和SeaBench更能有效地区分LLMs在SEA语言任务中的表现。这突显了使用实际查询来评估LLMs的多语言能力的重要性。

发布时间: 2/11/2025

查看原文

基于超大规模自然图像的基礎模型是否优于专用于视网膜的模型以检测眼部和全身疾病？

作者: Qingshan Hou, Yukun Zhou, Jocelyn Hui Lin Goh, Ke Zou, Samantha Min Er Yew, Sahana Srinivasan, Meng Wang, Thaddaeus Lo, Xiaofeng Lei, Siegfried K. Wagner, Mark A. Chia, Dawei Yang, Hongyang Jiang, AnRan Ran, Rui Santos, Gabor Mark Somfai, Juan Helen Zhou, Haoyu Chen, Qingyu Chen, Carol Yim-Lui Cheung, Pearse A. Keane, Yih Chung Tham

arXiv:2502.06289v1 宣告类型: 交叉摘要：基础模型（FMs）的兴起正在改变医疗领域。在眼科领域，RETFound，一种专门为视网膜训练的FM，通过顺序预训练在140万自然图像和160万视网膜图像上，展示了在临床应用中的高度适应性。相反，一种通用视觉FM DINOv2在1.42亿自然图像上预训练后，在非医疗领域显示出了潜力。然而，其在临床任务中的应用尚未得到充分探索。为了解决这一问题，我们通过调整RETFound和三个DINOv2模型（大、基、小）的微调，对三种用于眼病检测和全身疾病预测的任务进行了头对头评估，涵盖了八个标准化开源眼病数据集，以及Moorfields AlzEye和UK Biobank数据集。在糖尿病视网膜病变的检测中，DINOv2-Large模型优于RETFound（三个数据集中的AUROC分别为0.850-0.952 vs 0.823-0.944，所有P≤0.007），在多类眼病的检测中，DINOv2-Large模型的AUROC为0.892，而RETFound的AUROC为0.846（P<0.001）。在青光眼中，DINOv2-BASE模型优于RETFound（AUROC分别为0.958 vs 0.940，P<0.001）。相反，RETFound在预测心力衰竭、心肌梗死和缺血性中风方面均优于所有DINOv2模型（AUROC分别为0.732-0.796 vs 0.663-0.771，所有P<0.001）。即使在只有10%的微调数据的情况下，这种趋势也持续存在。这些发现展示了通用和领域特定的FM在不同场景下的优势，突显了根据任务特定要求选择FM以优化临床性能的重要性。

发布时间: 2/11/2025

查看原文

使用相对传输函数的端到端多 microphone 讲话人提取

作者: Aviad Eisenberg, Sharon Gannot, Shlomo E. Chazan

arXiv:2502.06285v1 声源类型: cross 摘要：本文介绍了一种多麦克风方法，用于从涉及多个说话人和方向性噪声的混响环境中提取所需说话人的信号。在这项工作中，我们提出了利用参考语音在同一位置录制的目标源的瞬时相对传输函数(RTF)。基于RTF的空间线索的效果与基于到达方向(DOA)的空间线索以及传统的频谱嵌入进行了比较。在具有挑战性的声学场景下的实验结果表明，使用空间线索比基于频谱的线索具有更好的性能，并且瞬时RTF比基于DOA的空间线索表现更好。

发布时间: 2/11/2025

查看原文

Jakiro：借助去耦多头MoE增强 speculative decoding

作者: Haiduo Huang, Fuwei Yang, Zhenhua Liu, Yixing Xu, Jinze Li, Yang Liu, Xuanwu Yin, Dong Li, Pengju Ren, Emad Barsoum

arXiv:2502.06282v1 宣告类型: cross 摘要:推测性解码(SD)通过使用较小的草稿模型预测多个令牌，然后由较大的目标模型并行验证这些令牌来加速大型语言模型的推理。然而，草稿模型的有限容量往往需要使用基于树的采样来提高预测准确性，在每一步生成多个候选。我们识别出这种方法的一个关键限制：同一步骤中的候选来源于相同的表示，这限制了多样性和整体效果。为了解决这个问题，我们提出了Jakiro，利用专家混合(MoE)，其中独立的专家生成多样化的预测，有效地解耦候选之间的相关性。此外，我们引入了一种混合的推理策略，结合自回归解码用于初始令牌，并行解码用于后续阶段，并通过对比机制增强特征以提高准确性。我们的方法显著提高了预测准确性并实现了更高的推理加速。广泛的实验表明，我们的方法在推测性解码方面具有有效性和鲁棒性，并且建立了新的SOTA。我们的代码可从https://github.com/haiduo/Jakiro获得。

发布时间: 2/11/2025

查看原文

HODDI：用于计算药监的高阶药物-药物相互作用数据集

作者: Zhaoying Wang, Yingdan Shi, Xiang Liu, Can Chen, Jun Wen, Ren Wang

arXiv:2502.06274v1 Announce Type: cross 摘要：药物副作用研究对于理解复杂多药疗法中出现的不良反应至关重要。然而，缺乏能够捕捉多种药物组合效应的高级数据集严重限制了该领域的进展。现有资源如TWOSIDES主要关注两两药物交互。为了填补这一关键空白，我们引入了HODDI，这是首个高阶药物-药物交互数据集，该数据集是从美国食品药品监督管理局（FDA）不良事件报告系统（FAERS）过去十年的记录中构建而成，旨在推动计算药代不良反应监测。HODDI包含109,744条记录，涉及2,506种独特的药物和4,569种独特的副作用，特别是专门设计用于捕捉多药交互及其对不良反应的共同影响。全面的统计分析证明了HODDI广泛的覆盖范围和稳健的分析指标，使其成为研究高阶药物关系的重要资源。通过多种模型评估HODDI，我们发现简单的多层感知机（MLP）可以超越图形模型，而超图形模型在捕捉复杂多药交互方面表现出更优的表现，进一步验证了HODDI的有效性。我们的研究结果突显了高阶信息在药物-副作用预测中的固有价值，并将HODDI定位为药物警戒、药物安全和个性化医学研究中基准数据集。该数据集和代码可在https://github.com/TIML-Group/HODDI获取。

发布时间: 2/11/2025

查看原文

K-ON: 在大型语言模型的头部层堆叠知识

作者: Lingbing Guo, Yichi Zhang, Zhongpu Bo, Zhuo Chen, Mengshu Sun, Zhiqiang Zhang, Wen Zhang, Huajun Chen

arXiv:2502.06257v1 交叉类型摘要：近年来，大型语言模型（LLM）在各种自然语言处理（NLP）任务中取得了显著的进步。通常，LLM 是通过预测下一个标记来训练的，这与许多 NLP 任务相吻合。然而，在知识图谱（KG）场景中，实体是基本单位，识别一个实体至少需要几个标记。这导致了 KG 和自然语言之间的粒度不匹配。为了解决这个问题，我们提出了 K-ON，它通过使用多个头层来进行 k 步预测，将 KG 知识整合到 LLM 中。K-ON 不仅可以在一步中生成实体级别的结果，还可以针对实体启用对比损失，这是 KG 表示学习中最强大的工具。实验结果表明，K-ON 在结合文本甚至其他模态的方法中性能更优。

发布时间: 2/11/2025

查看原文

向量高效的智能激光除草：杂草茎检测的方法和数据集

作者: Dingning Liu, Jinzhe Li, Haoyang Su, Bei Cui, Zhihui Wang, Qingbo Yuan, Wanli Ouyang, Nanqing Dong

arXiv:2502.06255v1 宣布类型: cross 摘要: 在现代农业中，杂草控制是一项关键挑战，因为杂草与作物争夺必要的营养资源，显著降低了作物产量和质量。传统的杂草控制方法，包括化学和机械方法，存在实际限制，如环境影响和效率问题。一种新兴但有效的全新方法是激光除草，它使用激光束作为茎剪切工具。尽管已有研究在杂草识别中使用了深度学习，但在智能激光除草中的应用仍需全面理解。因此，本研究代表了激光除草杂草识别的首次实证研究。为了提高激光束切割效率并避免损坏目标作物，激光束应直接对准杂草根部。然而，杂草茎检测仍然是一个未充分探索的问题。我们将杂草和作物的检测与杂草茎定位结合到一个端到端系统中。为在实际场景中训练和验证所提出的系统，我们构建了一个包含人工注释的高质量杂草茎检测数据集。该数据集包含7,161张高分辨率的实地拍摄图片，以及11,151个杂草实例的标注。实验结果显示，与现有杂草识别系统相比，所提出的系统在除草准确性上提高了6.7%，并降低了32.3%的能量成本。

发布时间: 2/11/2025

查看原文