arXiv 论文列表

作者: Zhe Huang, Shuo Wang, Yongcai Wang, Lei Wang

arXiv:2502.14891v2 宣告类型: replace-cross 摘要：协作三维对象检测在自主驾驶领域具有重要意义，因为它通过促进多智能体之间的信息交换大大提高了每个个体代理的感知能力。然而，在实践中，由于姿态估计误差和时间延迟，智能体之间的信息融合往往会导致空间和时间上的噪声特征表示，从而导致检测错误。扩散模型自然具有将噪声样本转化为理想数据的能力，这促使我们探索使用扩散模型来解决多智能体系统之间的噪声问题。在本文中，我们提出了一种名为CoDiff的新颖鲁棒协作感知框架，该框架利用扩散模型的潜力生成更加全面和清晰的特征表示。据我们所知，这是首次将扩散模型应用于多智能体协作感知。具体而言，我们将高维特征图投影到预先训练的强大自编码器的潜空间中。在这个空间内，每个智能体的信息作为条件来引导扩散模型的采样。这一过程去除了粗糙的特征图并逐步细化融合特征。对模拟数据集和真实世界数据集的实验研究表明，在协作对象检测性能方面，所提出的框架CoDiff始终优于现有的相关方法，并且在智能体的姿态和延迟信息存在高水平噪声时表现出高度期望的鲁棒性。代码已发布在 https://github.com/HuangZhe885/CoDiff

发布时间: 4/18/2025

查看原文

基于课程的样本高效强化学习在四旋翼飞行器鲁棒稳定化中的应用

作者: Fausto Mauricio Lagos Suarez, Akshit Saradagi, Vidya Sumathy, Shruti Kotpaliwar, George Nikolakopoulos

arXiv:2501.18490v2 课程类型: 替换交叉摘要：本文介绍了一种基于课程学习的方法，以开发一个满足预定义性能标准的基于强化学习的鲁棒稳定控制器，用于四旋翼无人机。学习目标是在从随机初始条件出发的同时，实现所需的位置，同时遵守瞬态和稳态性能规范。由于位置和姿态动力学之间的强烈耦合、奖励函数的设计和调整复杂性，以及样本效率低等因素，这使得传统的端到端一阶段强化学习方法面临挑战。这些因素需要大量的计算资源，并导致收敛时间延长。为了解决这些挑战，本文将学习目标分解为三个阶段的课程，逐步增加任务的复杂性。课程从学习从固定初始条件实现稳定悬停开始，随后逐渐引入初始位置、姿态和速度的随机化。提出了一种新颖的加性奖励函数，以融入瞬态和稳态性能规范。结果表明，基于 proximal 策略优化（PPO）的课程学习方法，辅以所提出的奖励结构，与使用相同奖励函数的一阶段 PPO 训练策略相比，能够实现更优性能，同时显著降低计算资源需求和收敛时间。通过对随机初始条件和存在干扰情况下的训练策略的性能和鲁棒性进行了全面验证。

发布时间: 4/18/2025

查看原文

哪种优化器最适合物理知情神经网络和柯莫罗夫斯基-阿诺德网络？

作者: Elham Kiyani, Khemraj Shukla, Jorge F. Urb\'an, J\'er\^ome Darbon, George Em Karniadakis

arXiv:2501.16371v3 通知类型: replace-cross 摘要: 物理知情神经网络(PINNs)通过将偏微分方程(PDEs)纳入神经网络的训练过程中作为软约束，颠覆了PDE解的计算，成为科学机器学习(SciML)生态系统中的重要组成部分。近年来，物理知情柯尔莫哥洛夫-阿诺尔德网络(PIKANs)也显示出与PINNs相当且准确的结果。在当前实现中，PINNs和PIKANs主要使用Adam等一阶方法以及BFGS及其低内存变体L-BFGS等拟牛顿方法进行优化。然而，这些优化器在高度非线性和非凸的损失景观中常常表现不佳，导致诸如收敛速度慢、局部极小值陷阱和鞍点问题等挑战。在本研究中，我们研究了自缩放BFGS(SSBFGS)、自缩放鲍尔丁(SSBroyden)方法以及其他先进的拟牛顿方案，包括带有不同线搜索策略的BFGS和L-BFGS。这些方法根据历史梯度信息动态调整更新，从而提高训练效率和准确性。我们系统地比较了这些优化器——使用PINNs和PIKANs——在关键的线性、刚性、多尺度和非线性PDEs上的表现，包括伯格斯方程、艾伦-卡斯方程、库拉莫托-西瓦辛斯基方程和辛格堡-朗道方程。我们的研究结果在不使用自适应权重或其他PINNs常用的增强技术的情况下，提供了最先进的结果，大幅提高了准确性。更为广泛地说，我们的结果揭示了二阶优化策略在显著改善PINNs和PIKANs的收敛性和精确泛化能力方面的有效性。

发布时间: 4/18/2025

查看原文

在多类设置中学会帮助

作者: Yu Wu, Yansong Li, Zeyu Dong, Nitya Sathyavageeswaran, Anand D. Sarwate

arXiv:2501.13810v2 宣布类型: 替换交叉摘要：在资源受限设备上部署复杂的机器学习模型具有挑战性，因为受限于计算能力、内存和模型重新训练的能力。为了解决这些限制，可以通过在本地模型中增加服务器端模型来建立一个混合系统，其中拒识器（rejection model）选择性地推迟样本的处理，并将这些样本发送到服务器进行处理。混合系统可以在利用计算资源的同时，尽量减少服务器使用相关的开销。最近提出的 Learning to Help (L2H) 模型在固定本地（客户端）模型的条件下训练服务器模型，与 Training to Defer (L2D) 框架不同，后者训练客户端以适应固定（专家）服务器。在 L2D 和 L2H 中，训练包括在客户端学习一个拒识器（rejection model），以确定何时查询服务器。在本文中，我们将 L2H 模型从二元分类扩展至多分类问题，并在服务器访问受限的多种实际场景中演示其适用性，这些限制可能由成本、可用性或政策引起。我们推导出一个可微、凸且与 L2H 模型对应的 0-1 损失的 Bayes 规则一致的阶段切换代理损失函数。实验结果表明，我们提出的方法为资源受限环境下的多分类问题提供了一个有效且实用的解决方案。

发布时间: 4/18/2025

查看原文

多模态LLM可以在零样本情况下推理美学

作者: Ruixiang Jiang, Changwen Chen

arXiv:2501.09012v2 Announce Type: replace-cross 摘要：生成艺术的迅速进展已经使创建视觉上令人愉悦的图像变得更为平民化。然而，要实现真正的艺术影响——那种在更深层次、更具意义的层面上与观众共鸣的艺术影响——则需要复杂的审美敏感性。这种敏感性涉及一种超越简单的视觉吸引力的多层次推理过程，而这一过程常被当前的计算模型所忽视。本文通过研究如何有效激活多模态大语言模型（MLLMs）的推理能力来进行审美判断，开创了一种方法。我们的分析揭示了一个关键的挑战：MLLMs在审美推理过程中倾向于产生幻觉，表现为主观观点和缺乏根据的艺术解释。我们进一步证明，可以通过采用基于证据、客观的推理过程来克服这些局限性，这得到了我们提出的基准模型ArtCoT的支持。MLLMs在这一原则的指引下生成的多层次和深入的审美推理与人类判断更为一致。这些发现直接应用于AI艺术辅导和生成艺术的奖励模型等领域。最终，我们的工作为能够真正理解、欣赏并生成符合理性人类审美标准的艺术品的AI系统铺平了道路。

发布时间: 4/18/2025

查看原文

扩散模型的测试时对齐而不进行奖励过优化

作者: Sunwoo Kim, Minkyu Kim, Dongmin Park

arXiv:2501.05803v3 公布类型: replace-cross 摘要：扩散模型在生成任务中表现出色，但在保持其灵活性的同时与特定目标对齐仍然具有挑战性。现有微调方法往往受到奖励过度优化的问题困扰，而近似指导方法则无法有效地优化目标奖励。针对这些局限性，我们提出了一种基于顺序蒙特卡洛（SMC）的无需训练、在测试时采样的方法，以从与奖励对齐的目标分布中采样。我们的方法针对扩散采样进行了定制，并结合了压制技术，能够在保持多样性和跨奖励泛化的同时，实现与微调方法相比可比或更优的目标奖励。我们在单奖励优化、多目标场景以及在线黑盒优化中展示了其有效性。该工作提供了一种稳健的解决方案，可以在不牺牲其通用能力的情况下将扩散模型与多种下游目标对齐。代码可在 https://github.com/krafton-ai/DAS 获取。

发布时间: 4/18/2025

查看原文

ArtCrafter：文本-图像对齐风格转移通过嵌入重构

作者: Nisha Huang, Kaer Huang, Yifan Pu, Jiangshan Wang, Jie Guo, Yiqiang Yan, Xiu Li, Tong-Yee Lee

arXiv:2501.02064v2 宣告类型: replace-cross 摘要：近年来，文本引导的风格转换取得了显著进步，主要归功于扩散模型的创新。这些模型在条件引导方面表现出色，利用文本或图像来指导采样过程。然而，尽管它们具有强大的能力，直接的条件引导方法在平衡文本语义的表达性和输出结果的多样性方面，以及捕捉风格特征方面仍然面临着挑战。为了解决这些挑战，我们提出了一个名为 ArtCrafter 的新型框架，用于文本到图像的风格转换。具体而言，我们引入了一种基于注意力的风格提取模块，精心设计以捕捉图像中的微妙风格元素。该模块采用多层架构，利用感知注意力机制的能力整合细粒度信息。此外，我们还提出了一种新颖的文本-图像对齐扩增组件，巧妙地平衡了两种模态的控制，使模型能够高效地将图像和文本嵌入映射到共享特征空间。我们通过注意力操作实现这一目标，这些操作允许模态之间平滑的信息流通。最后，我们引入了一种明确的调制方式，通过嵌入重构设计无缝地将多模态增强嵌入与原始嵌入结合，使模型能够生成多样化的输出。广泛的实验显示，ArtCrafter 在视觉风格化方面取得了令人印象深刻的结果，展现出卓越的风格强度、可控性和多样性。

发布时间: 4/18/2025

查看原文

MADGEN: 质谱关注从头分子生成

作者: Yinkai Wang, Xiaohui Chen, Liping Liu, Soha Hassoun

arXiv:2501.01950v3 宣告类型: 替换交叉摘要：由于生物样本中分子的极大多样性以及参考数据库的局限性，质谱/质谱（MS/MS）光谱的注解（分配结构化化学身份）仍然是一个重大的挑战。目前，大多数光谱测量仍处于“黑暗化学空间”中，没有结构注解。为了改进注解，我们提出了 MADGEN（基于质量谱的从头分子生成方法），一种由质谱数据指导的基于支架的方法，用于从头生成分子结构。MADGEN 操作分为两个阶段：支架检索和条件光谱指导下的分子生成，从检索到的支架开始。在第一阶段，给定一个 MS/MS 光谱，我们将支架检索定义为一个排名问题，并采用对比学习将质量谱与候选分子支架对齐。在第二阶段，从检索到的支架开始，我们利用 MS/MS 光谱指导一种基于注意力的生成模型生成最终的分子。我们的方法限制了分子生成的搜索空间，减少了其复杂性并提高了生成准确性。我们在三个数据集（NIST23、CANOPUS 和 MassSpecGym）上评估了 MADGEN，并使用预测支架检索器和先验检索器评估了 MADGEN 的性能。我们展示了如何利用注意力在整个生成过程中整合光谱信息，以在先验检索器的情况下取得良好的结果。

发布时间: 4/18/2025

查看原文

从基因表达谱通过深度学习生成具有活性潜力的分子

作者: Chen Li, Yoshihiro Yamanishi

arXiv:2412.19422v2 宣告类型: 替换交叉摘要: 在药物发现过程中，从头生成类似先导的分子是一个具有挑战性的任务。大多数先前研究中的方法通过分析分子图或简化分子输入线输入系统（SMILES）字符串来学习分子结构的语义和语法；然而，它们并未考虑到由基因和蛋白质组成的生物系统对药物的响应。在本研究中，我们提出了一种混合神经网络HNN2Mol，它可以利用基因表达谱来生成具有期望表型的分子结构以供任意目标蛋白质使用。在该算法中，使用变分自编码器作为特征提取器，以学习基因表达谱的潜在特征分布。然后，利用长短期记忆网络作为化学生成器，生成满足特征提取器提取出的基因表达谱特征条件的语法正确的SMILES字符串。实验结果和案例研究证明，提出的HNN2Mol模型可以生成具有潜在生物活性和类药物性质的新分子。

发布时间: 4/18/2025

查看原文

一种具有可解释RBF分类器的稳健原型基网络基础

作者: Sascha Saralajew, Ashish Rana, Thomas Villmann, Ammar Shaker

arXiv:2412.15499v3 Announce Type: replace-cross 摘要：原型基础分类学习方法因其固有的可解释性而闻名。然而，与深度模型相比，这种范式在性能上存在重大限制。这导致了所谓的深度原型基础网络（PBNs），也称为原型部分模型的开发。在本文中，我们从不同角度分析了这些模型，包括可解释性。特别是，我们关注分类按组件（Classification-by-Components, CBC）的方法，该方法使用一种概率模型来确保可解释性，并能作为浅层或深层架构使用。我们表明，这种模型存在一些不足之处，如生成矛盾的解释。基于这些发现，我们提出了一种CBC的扩展，解决了这些问题。此外，我们证明了这种扩展具有鲁棒性保证，并推导出一种优化鲁棒性的损失函数。我们的分析还表明，大多数（深度）PBNs与（深度）RBF分类器相关，这意味着我们的鲁棒性保证同样适用于浅层RBF分类器。实证评估证明，我们的深度PBN在不同的基准测试上达到了最先进的分类精度，同时解决了其他方法的可解释性不足。此外，我们的浅层PBN变体在可解释性方面优于其他浅层PBN，并且具有可证明的鲁棒性保证。

发布时间: 4/18/2025

查看原文