arXiv 论文列表

作者: Bowen Gao, Yanwen Huang, Yiqiao Liu, Wenxuan Xie, Wei-Ying Ma, Ya-Qin Zhang, Yanyan Lan

arXiv:2503.22164v2 通告类型: replace-cross 摘要：新型小分子药物的发现仍然是一个关键的科学挑战，对治疗疾病和促进人类健康具有深远的影响。传统的药物开发，尤其是小分子治疗药物的开发，是一个高度复杂、资源密集且耗时的过程，需要多学科的合作。近年来，人工智能（AI）的突破，特别是大型语言模型（LLMs）的兴起，为简化和加速这一过程提供了变革性的机会。在本文中，我们介绍了由基于LLM的多智能体协作驱动的虚拟制药生态系统PharmAgents。PharmAgents通过集成解释性强的、基于LLM的智能体，配备专门的机器学习模型和计算工具，模拟了从靶点发现到预临床评估的完整药物发现工作流程。通过结构化的知识交流和自动优化，PharmAgents识别潜在的治疗靶点，发现有前景的先导化合物，增强结合亲和力和关键分子性质，并进行体外毒性分析和合成可行性分析。此外，该系统支持解释性、智能体交互和自我进化，使其能够根据先前的经验改进未来的药物设计。通过展示LLM驱动的多智能体系统在药物发现中的潜力，本文建立了一种新的自主、解释性和可扩展的制药研究范式，未来有望扩展至全面的药物生命周期管理。

发布时间: 4/1/2025

查看原文

知识图嵌入中元数据表示模型的比较

作者: Shusaku Egami, Kyoumoto Matsushita, Takanori Ugai, Ken Fukuda

arXiv:2503.21804v2 宣告类型: replace-cross 摘要：超关系知识图谱（HRKGs）超越了传统的二元关系，使我们可以表示在历史事件、传感器数据、视频内容和叙事等领域的语境、来源和时间信息。HRKGs 可以通过几种元数据表示模型（MRMs），包括实义化（REF）、单例属性（SGP）和RDF星号（RDR）进行结构化。然而，不同 MRMs 对知识图嵌入（KGE）和链接预测（LP）模型的影响仍然不清楚。本研究评估了 MRMs 在 LP 任务中的表现，指出了现有评估框架的局限性，并引入了一个新任务以确保 MRMs 之间的公平比较。此外，我们提出了一种框架，该框架有效地在潜在空间中反映了三种 MRMs 的知识表示。对两类数据集的实验表明，在简单 HRKG 中，REF 表现良好，而 SGP 的效果较差。然而，在复杂 HRKG 中，MRMs 在 LP 任务中的差异 minimal。我们的研究结果为 HRKGs 在 LP 任务中的最佳知识表示策略提供了贡献。

发布时间: 4/1/2025

查看原文

层归一化与动态激活函数之间的数学关系

作者: Felix Stollenwerk

arXiv:2503.21708v2 公告类型: replace-cross 摘要: 一篇最近的论文提出动态双曲函数(DyT)作为一种用于替代层归一化(LN)的即插即用替代方案。尽管该方法在实践上具有良好的动机并且具有吸引力，但它缺乏理论基础。在本项工作中，我们揭示了层归一化和动态激活函数之间的数学关系。特别是，我们从LN推导出DyT，并表明为了做到这一点需要一个定义明确的近似。通过放弃这种近似，我们获得了一个替代激活函数，我们称之为动态倒数平方根单元(DyISRU)。DyISRU是层归一化的精确对应物，我们通过数值实验表明，与DyT相比，它确实更准确地类似于LN。

发布时间: 4/1/2025

查看原文

GenFusion：通过视频在重建与生成之间形成闭环

作者: Sibo Wu, Congrong Xu, Binbin Huang, Andreas Geiger, Anpei Chen

arXiv:2503.21219v2 Announce Type: replace-cross 摘要：最近，3D重建和生成展示了令人印象深刻的新型视图合成结果，实现了高保真度和高效性。然而，这两个领域之间存在明显的条件差距，例如，可扩展的3D场景重建通常需要密集捕获的视图，而3D生成通常依赖于单一的或没有输入视图，这显著限制了它们的应用。我们发现这种现象的原因在于3D约束与生成先验之间的不匹配。为了解决这一问题，我们提出了一种基于重建的视频扩散模型，该模型能够在易产生伪影的RGB-D渲染上对视频帧进行条件化。此外，我们还提出了一种循环融合流水线，该流水线逐步将生成模型产生的修复帧添加到训练集中，从而实现逐步扩展，并解决之前重建和生成流水线中出现的观点饱和限制。我们的评估，包括从稀疏视图和掩蔽输入生成视图，验证了我们方法的有效性。更多详情请参见 https://genfusion.sibowu.com。

发布时间: 4/1/2025

查看原文

基于上下文的弱监督图像 Manipulation 本地化与 SAM 精炼

作者: Xinghao Wang, Tao Gong, Qi Chu, Bin Liu, Nenghai Yu

arXiv:2503.20294v2 通知类型: 替换-交叉摘要：恶意图像篡改给社会带来了风险，增加了有效图像篡改检测方法的重要性。图像篡改检测的近期方法主要受到完全监督方法的驱动，这些方法需要耗费大量的人力进行像素级别的标注。因此，探索只需要图像级二元标签即可训练的弱监督图像篡改定位方法变得尤为重要。然而，现有的弱监督图像篡改方法忽视了边缘信息对准确定位的重要性，导致定位性能不佳。为了解决这一问题，我们提出了一种上下文感知边界定位（CABL）模块，用于聚合边界特征并学习上下文不一致性，以便定位篡改区域。此外，通过利用类激活映射（CAM）和段一切换模型（SAM），我们引入了CAM引导SAM精炼（CGSR）模块，以生成更准确的篡改定位图。通过结合两个模块，我们提出了一种基于双分支Transformer-CNN架构的新颖弱监督框架。我们的方法在多个数据集上实现了卓越的定位性能。

发布时间: 4/1/2025

查看原文

多模态（推理）LLM能作为深度假脸检测器吗？

arXiv:2503.20084v2 通告类型: 替换-交叉摘要：在先进生成模型时代，深度假信息（Deepfake）检测仍然是一个关键挑战，尤其是在合成媒体变得越来越复杂的情况下。在这项研究中，我们探索了最新的多模态（推理）大型语言模型（LLMs）在深度假信息图像检测中的潜力，例如（OpenAI O1/4o，Gemini thinking Flash 2，Deepseek Janus，Grok 3，llama 3.2，Qwen 2/2.5 VL，Mistral Pixtral，Claude 3.5/3.7 sonnet）。我们跨多个数据集对12款最先进的多模态LLMs与传统深度假信息检测方法进行了基准测试，包括近期发布的现实生活中的深度假信息图像。为了提高性能，我们采用了提示调优，并对模型的推理路径进行了深入分析，以确定其决策过程中起关键作用的因素。研究发现，最佳的多模态LLMs即使在零样本的情况下也能够取得与传统深度假信息检测管道相当甚至更优的性能，特别是在分布之外的数据集上，而其他LLM家族的表现极其令人失望，甚至有些模型比随机猜测还要差。此外，我们发现，在这种特定的深度假信息检测任务中，新版本模型和推理能力并未提高性能，而模型大小在某些情况下确实有所帮助。本研究突显了将多模态推理整合到未来深度假信息检测框架中的潜力，并为实际场景中的模型可解释性提供了见解。

发布时间: 4/1/2025

查看原文

自-bootstraps 你自己的视角：遮罩ego-exo 模型化在细粒度视角不变视频表示中的应用

作者: Jungin Park, Jiyoung Lee, Kwanghoon Sohn

arXiv:2503.19706v2 通告类型: replace-cross 摘要：从第一人称（自视，ego）和第三人称（旁观，exo）视频中学习视角不变的表示是一种有望在多个视角上推广视频理解系统的方法。然而，由于ego视图和exo视图之间在视角、运动模式和上下文方面存在巨大差异，这一领域尚未得到充分探索。本文中，我们提出了一种新颖的ego-exo掩蔽建模，即Bootstrap Your Own Views（BYOV），用于从未配对的ego-exo视频中学习精细粒度的视角不变视频表示，该模型促进了一种因果时间动态和跨视角对齐。我们强调捕捉人类行为的组合性质是实现稳健的跨视角理解的基础。具体来说，自视图掩蔽和跨视角掩蔽预测被设计用来同时学习视角不变且强大的表示。实验结果证明，我们的BYOV在四个下游ego-exo视频任务的所有指标上均显著优于现有方法。代码可在https://github.com/park-jungin/byov 获取。

发布时间: 4/1/2025

查看原文

RGB-Th-Bench: 一种用于视觉-热理解的视觉语言模型密集基准

作者: Mehdi Moshtaghi, Siavash H. Khajavi, Joni Pajarinen

arXiv:2503.19654v3 通知类型: 替换-交叉摘要: 我们引入了RGB-Th-Bench，这是首个旨在评估视觉语言模型（VLMs）理解RGB-热图像对能力的基准。尽管VLMs已经在视觉推理和多模态理解方面取得了显著进展，但它们的评估主要局限于基于RGB的基准，从而在评估其在红外视觉任务方面的能力方面留下了关键的空白。目前可用的可见光-红外数据集要么是特定任务的，要么缺乏进行严格模型评估所需的高度质量注释。为解决这些局限性，RGB-Th-Bench提供了涵盖14个不同技能维度的全面评估框架，并提供了1,600多道专家注释的Yes/No问题。基准采用了两种准确度度量标准：标准的问题级别准确度和更为严格的技能级别准确度，后者评估了模型在每个技能维度内的多个问题中的鲁棒性。这种设计确保了对模型性能进行详尽评估，包括对抗性和幻觉性响应的抗性。我们对19个最新的VLMs进行了广泛的评估，揭示了在RGB-热图像理解方面的显著性能差距。我们的结果显示，即使是最强的模型在理解热图像方面也面临挑战，其性能受到基于RGB的能力的严格限制。此外，预训练中缺乏大规模应用特定和专家注释的热图像和热图像描述对的大规模数据集也是观察到的性能差距的一个重要原因。RGB-Th-Bench突显了在可见光和红外图像理解之间缩小差距进一步改进多模态学习的迫切需求。该数据集可通过该链接获取，并且评估代码也将公开提供。

发布时间: 4/1/2025

查看原文

OpenSDI：在开放世界中识别由扩散生成的图像

作者: Yabin Wang, Zhiwu Huang, Xiaopeng Hong

arXiv:2503.19653v2 Announce Type: replace-cross 摘要：本文识别出了OpenSDI这一挑战，其目标是在开放世界环境中识别由扩散生成的图像。为应对这一挑战，我们定义了一个新的基准，即OpenSDI数据集（OpenSDID），由于使用了大量模仿开放世界扩散式操作的视觉-语言模型，其在现有的数据集中脱颖而出。OpenSDID的另一个突出特点是包含由扩散模型全局和局部操纵的图像的检测和定位任务。为解决OpenSDI挑战，我们提出了一种混合基础模型方案Synergizing Pretrained Models（SPM），该方法利用多个预训练基础模型之间的协作机制，在OpenSDI背景下增强泛化能力，通过提示和注意策略协同多个预训练模型。基于该方案，我们引入了MaskCLIP模型，这是一种SPM基模型，它将对比语言-图像预训练（CLIP）与遮蔽自编码器（MAE）对齐。在OpenSDID上的广泛评估表明，MaskCLIP显著优于当前最先进的方法，对于定位和检测任务，相对改进分别达到了14.23%（F1为14.11%）和2.05%（F1为2.38%）。我们的数据集和代码可在https://github.com/iamwangyabin/OpenSDI获取。

发布时间: 4/1/2025

查看原文

无例展示续存学习中具有漂移抵抗力的空间的LoRA减法

作者: Xuan Liu, Xiaobin Chang

arXiv:2503.18985v2 提交类型: replace-cross 摘要: 在连续学习(CL)中，灾难性遗忘往往由于特征漂移而产生。这一挑战在示例自由连续学习(EFCL)环境中尤为突出，因为无法保留前一个任务的样本，使得保留先前知识变得困难。为了应对这一问题，某些EFCL方法试图识别那些可以减少对前一个任务影响的特征空间，同时适应新的任务。然而，这些方法依赖于静态特征或从旧任务存储的过时统计数据，这使得它们无法捕捉到CL中特征空间的动态演变，导致随着时间的推移性能下降。在这篇论文中，我们引入了抗漂移空间(DRS)，它有效地处理了特征漂移，而不需要显式地建模特征或存储前一个任务。我们提出了一种名为Low-Rank Adaptation Subtraction (LoRA-)的新颖的参数高效微调方法来构建DRS。该方法在处理新任务数据之前，从初始预训练权重中减去旧任务的LoRA权重，以建立DRS进行模型训练。因此，LoRA-增强了稳定性、提高了效率并简化了实现。此外，稳定特征漂移使学习能够更好地具有可塑性，通过使用三重损失进行学习。我们的方法在多个数据集上针对长任务序列始终取得了最先进的结果。

发布时间: 4/1/2025

查看原文