arXiv 论文列表

作者: Benjamin David Winter, William John Teahan

arXiv:2503.10879v2 通知类型: 替换交叉摘要：激活函数在神经网络的性能和行为中起着关键作用，显著影响其学习和泛化的能力。传统的激活函数，如ReLU、Sigmoid和tanh，已经在许多任务中取得了显著的成功。然而，这些函数可能并不总是为所有任务和数据集提供最优性能。在本文中，我们介绍了Neuvo GEAF - 一种利用语法演化（GE）自动演化特定神经网络架构和数据集定制的新激活函数的创新方法。在知名二元分类数据集上的实验结果显示，与ReLU相比，在相同的网络架构下，F1分数有了统计学意义上的显著提高（在2.4%到9.4%之间）。值得注意的是，这些性能改进是在不增加网络参数数量的情况下实现的，支持了向更高效的神经网络发展的趋势，这些网络可以在资源受限的边缘设备上有效运行。本文的研究结果表明，演化出的激活函数可以为紧凑的网络提供显著的性能改进，同时在训练和推理阶段保持能效。

发布时间: 3/27/2025

查看原文

Oasis: 一幅图即可用于多模态指令数据合成

作者: Letian Zhang, Quan Cui, Bingchen Zhao, Cheng Yang

arXiv:2503.08741v3 宣布类型: replace-cross 摘要：多模态大型语言模型（MLLMs）的成功主要归因于大规模的训练数据。然而，由于隐私问题，许多MLLMs的训练数据不可用。收集多模态数据的过程既昂贵又劳动密集，进一步加剧了这一问题。是否可以在不牺牲多样性和质量的情况下自动合成多模态训练数据？在本文中，我们提出了一个新的方法Oasis，仅使用图片来合成高质量的多模态数据。Oasis 突破了传统方法，通过仅向MLLMs提示图片，从而大大扩展了数据的多样性。我们的方法的特点是一种精细的质量控制方法，确保数据质量。我们收集了超过500,000个数据，并在LLaVA-NeXT 上进行了增量实验。广泛实验表明，我们的方法可以显著提高MLLMs的性能。基于图片的合成还允许我们关注MLLMs的专业领域能力。代码和数据集可在 https://github.com/Letian2003/MM_INF 提供。

发布时间: 3/27/2025

查看原文

Uni$\textbf{F}^2$ace：统一多模态模型下的细粒度faces理解与生成

作者: Junzhe Li, Xuerui Qiu, Linrui Xu, Liya Guo, Delin Qu, Tingting Long, Chun Fan, Ming Li

arXiv:2503.08120v2 宣告类型: replace-cross 摘要：统一多模态模型（UMMs）已成为基础计算机视觉研究的强大范式，在图像理解和生成方面展现出显著潜力。然而，现有面向面部领域的研究主要集中在粗略的面部属性理解上，对于精细粒度的面部属性处理能力有限，且没有涉及生成能力。为克服这些限制，我们提出了Uni$\textbf{F}^2$ace，这是第一个专门用于精细粒度面部理解和生成的UMM。总体而言，我们使用两种相互促进的扩散技术以及两层专家混合架构，在自构建的专业数据集上训练Uni$\textbf{F}^2$ace。具体而言，首先构建了一个大规模面部数据集Uni$\textbf{F}^2$ace-130K，包含了13万个图像-文本配对和100万个问答配对，涵盖了一系列面部属性。其次，我们建立了离散扩散评分匹配与遮蔽生成模型之间的理论联系，同时优化了证据下界，这显著提高了模型合成面部细节的能力。最后，我们引入了令牌级和序列级的专家混合架构，实现了高效精细粒度的表示学习，既可以用于理解任务，也可以用于生成任务。在Uni$\textbf{F}^2$ace-130K上的广泛实验表明，Uni$\textbf{F}^2$ace在理解和生成任务上均优于现有UMM和生成模型，取得了更优异的表现。

发布时间: 3/27/2025

查看原文

训练领域草稿模型以进行 speculative 解码：最佳实践与见解

作者: Fenglu Hong, Ravi Raju, Jonathan Lingjie Li, Bo Li, Urmish Thakker, Avinash Ravichandran, Swayambhoo Jain, Changran Hu

arXiv:2503.07807v2 宣告类型: 替换交叉摘要：推测解码是一种通过使用小型草稿模型预测目标模型的输出来加速大型语言模型（LLMs）推理的有效方法。然而，当将推测解码适应特定领域的目标模型时，通用草稿模型的接受率因领域偏移而显著下降。在本工作中，我们系统地研究了知识蒸馏技术在训练领域特定的草稿模型以提高其推测准确性方面的应用。我们比较了白盒和黑盒蒸馏方法，并在不同的数据可访问性情景下探索了它们的有效性，包括历史用户查询、精心整理的领域数据以及合成生成的对齐数据。我们在函数调用、生物学和中文领域进行的实验显示，离线蒸馏比在线蒸馏在准确率上高出11%到25%，白盒蒸馏比黑盒蒸馏高出2%到10%，并且数据量趋势在各个领域中一致成立。此外，我们发现合成数据可以有效地对齐草稿模型，并能达到历史用户查询训练性能的80%到93%。这些发现为训练特定领域的草稿模型以提高推测解码效率提供了实用指南。

发布时间: 3/27/2025

查看原文

面向真实世界物理动力学的视觉辨识与推理：基于物理原理的异常检测

作者: Wenqiao Li, Yao Gu, Xintao Chen, Xiaohao Xu, Ming Hu, Xiaonan Huang, Yingna Wu

arXiv:2503.03562v3 宣告类型: replace-cross 摘要：人类通过感知、互动和基于对象条件的物理知识进行推理来检测现实世界中的对象异常。工业异常检测（IAD）的长期目标是使机器能够自主复制这一技能。然而，当前的IAD算法大多是在静态、语义简单的数据集上开发和测试的，而这与物理理解和推理在现实世界场景中必不可少的情况大相径庭。为了弥合这一差距，我们引入了物理异常检测（Phys-AD）数据集，这是一个面向工业异常检测的第一个大型现实世界、物理基础的视频数据集。通过真实的机器人手臂和电机收集，Phys-AD提供了多样化的动态、语义丰富的场景。数据集涵盖了22个真实世界对象类别超过6400个视频，并且涉及机器人手臂和电机的交互，同时表现出47种类型的异常。在Phys-AD中进行异常检测需要视觉推理，结合物理知识和视频内容来确定对象的异常情况。我们在这三种设置下对最先进的异常检测方法进行了基准测试：无监督异常检测、弱监督异常检测和视频理解异常检测，突出了它们在处理物理基础异常方面的局限性。此外，我们还引入了物理异常解释（PAEval）度量，旨在评估视觉-语言基础模型不仅检测异常的能力，还能够为其实质物理原因提供准确解释的能力。我们的项目可以在 https://guyao2023.github.io/Phys-AD/ 获取。

发布时间: 3/27/2025

查看原文

K-12教育中生成式AI助手的实施：CyberScholar倡议

作者: Vania Castro, Ana Karina de Oliveira Nascimento, Raigul Zheldibayeva, Duane Searsmith, Akash Saini, Bill Cope, Mary Kalantzis

arXiv:2502.19422v2 通知类型: 替换-交叉摘要：本文重点介绍了CyberScholar这一生成式AI（GenAI）辅助工具的试点，旨在为其在K-12教育背景下的写作提供反馈。目标是使用GenAI为学生的英语语言艺术（ELA）、社会研究和现代世界历史文本提供形式性和总结性反馈。本文所述的试用涉及7年级、8年级、10年级和11年级，并在美国中西部的三所学校和一个西北部学校进行。该工具使用了两种主要机制："基于参与者教师评估标准的提示工程"和"使用检索增强生成技术对定制的教学材料 corpus 进行微调的大语言模型（LLM）"。本文重点探讨了CyberScholar在提升学生的写作能力和支持不同需要书面作业的学科领域的教师方面所具有的潜力。

发布时间: 3/27/2025

查看原文

早期噪声消除以实现高效有效的上下文去噪

作者: Hongye Jin, Pei Chen, Jingfeng Yang, Zhengyang Wang, Meng Jiang, Yifan Gao, Binxuan Huang, Xinyang Zhang, Zheng Li, Tianyi Liu, Huasheng Li, Bing Yin

arXiv:2502.18915v2 宣告类型: replace-cross 摘要：大规模语言模型（LLMs）在广泛的语言处理任务中展现了杰出的表现。然而，它们往往会受到输入序列中无关或噪声上下文的影响，从而降低输出质量。这个问题影响了从长上下文到短上下文的所有场景，例如检索增强生成、表格问答以及上下文学习。我们揭示了LLMs能够在生成标记之前，在早期层面上隐式地识别输入序列中是否包含有用的信息。基于这一洞察，我们引入了一种名为早期噪声丢弃（Early Noise Dropping，简称END）的新型方法，以减轻这一问题，而无需对LLMs进行微调。END方法将输入序列分割成块，并在LLMs的早期层面上使用一个线性探测器来区分信息性和噪声性块。通过在处理过程中尽早丢弃噪声性块，END保留了关键信息，减少了干扰，并降低了计算开销。广泛的实验表明，END在多个评估数据集上显著提高了不同LLMs的性能和效率。此外，通过使用探针研究LLMs对输入的隐式理解，这项工作也加深了对LLMs在内部如何利用上下文进行推理的理解。

发布时间: 3/27/2025

查看原文

VesselSAM：利用SAM进行主动脉血管分割的方法，带LoRA和空洞注意力机制

作者: Adnan Iltaf, Rayan Merghani Ahmed, Zhenxi Zhang, Bin Li, Shoujun Zhou

arXiv:2502.18185v3 通告类型: replace-cross 摘要：医学图像分割对于临床诊断和治疗计划至关重要，尤其是在处理复杂的解剖结构如血管时。然而，准确分割血管仍然具有挑战性，因为它们的小尺寸、复杂的边缘结构以及容易受到伪影和成像噪声的影响。在这项工作中，我们提出了VesselSAM，这是一种改进的Segment Anything Model (SAM) 版本，特别适用于主动脉血管分割。VesselSAM 结合了 AtrousLoRA 模块，该模块将空洞注意和低秩适配 (LoRA) 集成在一起，以增强分割性能。空洞注意使模型能够捕获多尺度上下文信息，同时保留细微的局部细节和更广泛的全局上下文。此外，LoRA 促进了冻结 SAM 图像编码器的高效微调，减少了可训练参数的数量，从而增强了计算效率。我们使用两个具有挑战性的数据集对 VesselSAM 进行了评估：主动脉血管树 (AVT) 数据集和型 B 主动脉夹层 (TBAD) 数据集。VesselSAM 达到了最先进的性能，多中心数据集的 DSC 得分为 93.50\%, 93.25\%, 93.02\% 和 93.26\%。我们的结果表明，VesselSAM 提供了高分割准确率，在计算开销方面也显著优于现有的大规模模型。这一发展为进一步提高临床环境中的基于 AI 的主动脉血管分割奠定了基础。该代码和模型将在 https://github.com/Adnan-CAS/AtrousLora 释放。

发布时间: 3/27/2025

查看原文

具身AI软件工程师：带着信任进行编程

作者: Abhik Roychoudhury, Corina Pasareanu, Michael Pradel, Baishakhi Ray

arXiv:2502.13767v2 宣布类型: replace-cross 摘要：大型语言模型（LLMs）在生成代码片段方面显示出了惊人的能力，有望通过人工智能（AI）自动化软件工程中的大部分工作。我们认为，在部署AI软件工程师方面所需要的信任水平，应该与或甚至高于由人力驱动的软件工程实践建立的信任水平相当。向LLM代理的趋势为结合LLM的力量创建新代码与分析工具的力量以增加对代码的信任提供了一条途径。本文评论了LLM代理是否有可能在未来主导软件工程工作流程，以及编程的重点是否会从大规模编程转向以信任为基础的编程。

发布时间: 3/27/2025

查看原文

MetaDE：通过差分进化进化差分进化

作者: Minyang Chen, Chenchen Feng, and Ran Cheng

arXiv:2502.10470v3 宣告类型: replace-cross 摘要：作为进化计算（EC）领域中的基石，差分进化（DE）因其处理棘手的黑盒优化问题的简洁性和有效性而著称。尽管差分进化的优点已被广泛认可，但在实现最佳性能方面，其高度依赖于诸如变异因子、交叉概率以及特定DE策略的选择等超参数。传统的解决超参数难题的方法主要集中在参数调优或自适应机制上。然而，针对特定问题确定最优设置仍然是一项持久的挑战。为此，我们提出了一种名为MetaDE的方法，该方法通过在元层面使用DE本身来进化DE的内在超参数和策略。MetaDE的关键方面是一种专门的参数化技术，赋予其在进化过程中动态修改DE参数和策略的能力。为了提高计算效率，MetaDE结合了通过GPU加速计算框架的并行处理设计。在这种框架中，DE不仅是一个求解器，也是一个优化其自身配置的优化器，从而将超参数优化和问题解决流程整合成一个协同且自动的工作流。对CEC2022基准套件的广泛评估证明了MetaDE的出色表现。此外，当应用于通过进化强化学习进行的机器人控制时，MetaDE也展示了出色的表现。MetaDE的源代码可在以下链接中公开访问：https://github.com/EMI-Group/metade。

发布时间: 3/27/2025

查看原文