arXiv 论文列表

基于学习的 manipulation 和基于物理的移动在全身羽毛球机器人控制中的集成

作者: Haochen Wang, Zhiwei Shi, Chengxi Zhu, Yafei Qiao, Cheng Zhang, Fan Yang, Pengjie Ren, Lan Lu, Dong Xuan

arXiv:2504.17771v2 Announce Type: replace-cross 摘要：基于学习的方法，如拟合学习（IL）和强化学习（RL），可以在具有挑战性的灵巧机器人任务（如运动机器人）中产生出色的控制策略。然而，目前尚无工作将基于学习的策略与基于模型的方法整合起来，以减轻训练复杂性并确保灵巧羽毛球机器人控制的安全性和稳定性。在本文中，我们介绍了Hamlet，一种新颖的灵巧羽毛球机器人的混合控制系统。具体来说，我们提出了一种基于模型的策略来实现底盘运动，为手臂政策提供了基础。我们引入了一种包含物理信息的“IL+RL”训练框架，以学习基于模型的手臂政策。在这个训练框架中，使用包含特权信息的基于模型的策略在拟合学习（IL）和强化学习（RL）阶段均指导手臂政策的训练。此外，我们还在拟合学习（IL）阶段训练批评模型，以减轻从拟合学习（IL）到强化学习（RL）过渡时性能下降的问题。我们展示了我们自行设计的羽毛球机器人上的结果，在与服务机对决中取得了94.5%的成功率，在与人类对手对决中取得了90.7%的成功率。我们的系统可以很容易地推广到其他灵巧移动操作任务，如敏捷捕捉和乒乓球。我们的项目网站：https://dreamstarring.github.io/HAMLET/。

发布时间: 4/29/2025

查看原文

重新审视递归神经网络在序列建模中的重置机制：针对二元激活RNN的专用离散化方法

作者: Enqi Zhang

arXiv:2504.17751v2 声明类型: 替换-交叉摘要：在图像识别领域，脉冲神经网络（SNNs）已经实现了与传统人工神经网络（ANNs）相当的性能。在这样的应用中，SNNs实际上作为具有量化激活值的传统神经网络运行。本文从另一个视角出发，将SNNs视为用于序列建模任务的二元激活递归神经网络（RNNs）。从这个角度来看，目前的SNN架构在序列建模任务中面临几个基本挑战：（1）传统模型缺乏有效的长程序列建模机制；（2）SNNs中的生物启发组件（如重置机制和绝器期的应用）在序列任务中的理论探索仍相对不足；（3）SNN中的类似RNN的计算范式妨碍了在不同时间步长上的并行训练。为了解决这些挑战，本研究对基于二元激活RNN的SNN序列模型中的重置操作和绝器期的基本机制进行了系统的分析。我们重新审视这些生物机制是否是生成稀疏脉冲模式的严格必要条件，提供了新的理论解释和见解，并最终提出了固定绝器期SNN架构用于序列建模。

发布时间: 4/29/2025

查看原文

结合GCN结构学习与LLM化学知识以增强虚拟筛选

作者: Radia Berreziga, Mohammed Brahimi, Khairedine Kraim, Hamid Azzoune

arXiv:2504.17497v2 宣告类型: 交叉替换摘要：虚拟筛选在现代药物发现中扮演着至关重要的角色，因为它能够识别出值得实验验证的候选分子。传统的机器学习方法，如支持向量机（SVM）和XGBoost，依赖于预定义的分子表示，这往往会导致信息丢失和潜在的偏差。相比之下，深度学习方法，特别是图卷积网络（GCNs），通过直接操作分子图提供了一种更为表达能力强且无偏见的替代方案。此外，大型语言模型（LLMs）最近在药物设计中也显示出了最先进的性能，这要归功于它们通过注意力机制从大规模数据中捕捉复杂化学模式的能力。在这篇论文中，我们提出了一种将GCNs与LLMs提取的嵌入相结合的混合架构，以结合局部结构学习和全局化学知识。LLMs嵌入可以预先计算并存储在分子特征库中，从而在训练或推断过程中无需重新运行LLM，从而保持计算效率。我们发现，在每个GCN层之后连接LLMs嵌入，而不仅仅是最终层，可以显著提高性能，使得全局上下文在整个网络中更深入地集成。结果表明，该模型取得了更好的效果，F1分数为88.8%，超过了单独的GCN（87.9%），XGBoost（85.5%）和SVM（85.4%）基线。

发布时间: 4/29/2025

查看原文

MASR：基于多模态层次注意力聚焦的自反性推理agent基于视频理解

作者: Shiwen Cao, Zhaoxing Zhang, Junming Jiao, Juyi Qiao, Guowen Song, Rong Shen, Xiangbing Meng

arXiv:2504.17213v2 通告类型: 替换-交叉摘要：即使在大型模型迅速发展的时代，视频理解仍然是一个极其具有挑战性的任务。与文本或图像相比，视频通常包含更多带有冗余信息的数据，需要大型模型在整体层面适当分配注意力，以实现全面而准确的理解。为了解决这一问题，我们提出了一种基于多模态层次注意力聚焦自我反思推理（MASR）框架，用于代理驱动的视频理解。这项关键技术创新在于该框架能够检测和优先处理与查询高度相关的视频片段。首先，MASR 实现了多模态粗细相关性感知（MCRS），增强了获取到的上下文信息与查询之间的相关性。其次，MASR 使用扩展时域扩张（DTE）来减轻从通过MCRS 选定的关键帧中提取语义信息时遗漏关键细节的风险。通过在自我反思推理过程中迭代应用MCRS 和 DTE，MASR 能够自适应调整注意力，提取高度相关于查询的上下文，从而提高响应准确性。在 EgoSchema 数据集中，MASR 较之前领先的方法取得了显著的 5% 性能提升。在 Next-QA 和 IntentQA 数据集中，它分别优于最先进的标准 0.2% 和 0.3%。在包含长期视频的 Video-MME 数据集中，MASR 也比其他基于代理的方法表现更好。

发布时间: 4/29/2025

查看原文

通过符合性对抗生成合成数据的统计保证

作者: Rahul Vishwakarma, Shrey Dharmendra Modi, Vishwanath Seshagiri

arXiv:2504.17058v2 传达类型: 替换-交叉摘要：在机器学习研究中，生成高质量的合成数据面临着重大挑战，特别是在统计保真度和不确定性量化方面。现有的生成模型可以生成令人信服的合成样本，但在其与底层数据分布的关系上缺乏严格的统计保证，限制了其在需要严格错误边界的关键领域的应用。为此，我们通过提出一种新框架解决了这一基本限制，该框架将一致预测方法整合到生成对抗网络（GANs）中。通过整合多种一致预测范式，包括归纳一致预测（ICP）、Scheffé 一致预测、交叉一致预测和文恩-阿伯斯预测器，我们为生成的样本建立了无分布不确定性量化。这种方法被称为一致化 GAN（cGAN），它在保持传统 GAN 的生成能力的同时，展示了增强的校准特性，生成带有可证明统计保证的合成数据。我们提供了严格的数学证明，建立了有限样本有效性保证和渐近效率属性，这使得合成数据在高风险领域（包括医疗保健、金融和自主系统等）中的可靠应用成为可能。

发布时间: 4/29/2025

查看原文

参数马尔可夫链中状态价值函数的分析

作者: Kasper Engelen, Guillermo A. P\'erez, Shrisha Rao

arXiv:2504.17020v2 宣布类型: replace-cross 摘要: 参数马尔可夫链(pMC)用于建模具有未知或部分已知概率的概率系统。尽管(通用)pMC可达性质的验证已知是coETR完全的，但仍有人试图通过询问pMC在某些参数下的单调性的方式来接近这一问题。在这篇论文中，我们首先将单调性归约为询问从给定状态到达的概率是否从未小于另一个给定状态的概率。对于后一性质的最近结果暗示了一个高效的算法来压缩同值等价类，而这些等价类的压缩又保留了验证结果和单调性。我们实现了该算法来压缩pMC中的“平凡”等价类，并展示了以下实验证据：首先，压缩在一些现有基准测试中减少了规模，在一些自定义基准测试中实现了显著的规模缩减；其次，压缩加速了检查单调性和参数提升的现有算法，因此可以在实践中用作快速预处理步骤。

发布时间: 4/29/2025

查看原文

更好的人工智能并不意味着更好的生物模型

作者: Drew Linsley, Pinyuan Feng, Thomas Serre

arXiv:2504.16940v3 宣布类型: replace-cross 摘要：深度神经网络（DNNs）曾经随着它们在视觉基准测试上取得进步，越来越与灵长类动物的感知和神经反应趋于一致，这引发了人们对人工智能进步将产生更好的生物视觉模型的希望。然而，我们显示，在三个基准测试上，这种一致性现在正在停滞——并且在某些情况下正在恶化，随着DNNs达到人类或超人类的准确性。这种分歧可能反映出DNNs采用了与灵长类动物不同的视觉策略。这些发现挑战了这样的观点，即人工智能的进步自然会翻译到神经科学中。我们主张，视觉科学必须开辟自己的道路，发展基于生物视觉系统的算法，而不是优化基于互联网规模数据集的基准测试。

发布时间: 4/29/2025

查看原文

"野生环境"中AI系统的评估框架

作者: Sarah Jabbour, Trenton Chang, Anindya Das Antar, Joseph Peper, Insu Jang, Jiachen Liu, Jae-Won Chung, Shiqi He, Michael Wellman, Bryan Goodman, Elizabeth Bondi-Kelly, Kevin Samy, Rada Mihalcea, Mosharaf Chowdhury, David Jurgens, Lu Wang

arXiv:2504.16778v2 宣告类型: replace-cross 摘要：生成性人工智能（GenAI）模型已在全球各行各业中变得至关重要，然而目前的评估方法还未适应其广泛应用。传统评估方法通常依赖于基准测试和固定数据集，经常无法反映真实世界的表现，这在实验室测试结果和实际应用之间造成了差距。本文白皮书提出了一种全面的框架，用于评估真实的GenAI系统，强调多样且不断变化的输入以及整体、动态和持续的评估方法。本文为实际操作者提供了如何设计能够准确反映实时能力的评估方法的指导，并为政策制定者提供了基于社会影响而非固定性能数字或参数规模的GenAI政策建议。我们倡导将性能、公平性和伦理整合到整体框架中，并使用结合人工和自动化评估的持续、结果导向的方法，同时保持透明度以增强利益相关者的信任。实施这些策略确保GenAI模型不仅在技术上卓有成效，而且在伦理上负责任且具有影响力。

发布时间: 4/29/2025

查看原文

PixelWeb：第一个具有像素级标签的Web GUI数据集

作者: Qi Yang, Weichen Bi, Haiyang Shen, Yaoqi Guo, Yun Ma

arXiv:2504.16419v2 宣告类型: 替换-交叉摘要：图形用户界面（GUI）数据集对于各种下游任务至关重要。然而，GUI数据集通常通过自动标注生成注释信息，这通常会导致GUI元素的边界框（BBox）标注不准确，包括缺少、重复或没有意义的边界框。这些问题会降低基于这些数据集训练的模型的性能，限制其在实际应用中的效果。此外，现有的GUI数据集仅提供可视化的边界框标注，这限制了与视觉相关的GUI下游任务的发展。为了解决这些问题，我们引入了PixelWeb，这是一个包含超过100,000个标注网页的大规模GUI数据集。PixelWeb采用了一种新颖的自动标注方法，结合了视觉特征提取和文档对象模型（DOM）结构分析，通过两个核心模块：信道提取和层分析来构建。信道提取通过提取BGRA四通道位图标注确保在遮挡和重叠元素情况下的准确定位。层分析使用DOM来确定元素的可见性和堆叠顺序，提供精确的边界框标注。此外，PixelWeb还包括全面的元数据，如元素图像、轮廓和掩码标注。由三位独立标注员的手动验证确认了PixelWeb标注的高质量和高准确性。在GUI元素检测任务上的实验结果表明，PixelWeb在mAP95指标上的性能比现有数据集提高了3-7倍。我们相信，PixelWeb在GUI生成和自动化用户交互等下游任务中的性能改进方面具有巨大的潜力。

发布时间: 4/29/2025

查看原文

PINN-MEP：分子系统中最小能量路径发现的连续神经表示方法

作者: Magnus Petersen, Roberto Covino

arXiv:2504.16381v2 Announce Type: replace-cross 摘要：特征化物理系统中的构象转变一直是计算科学中的基本挑战。传统的采样方法，如分子动力学（MD）或MCMC，往往难以应对分子系统的高维性质以及从稳定状态到另一个稳定状态的高能量势垒。尽管这些转变在模拟时间尺度上是罕见事件，但它们通常代表了最具生物学意义的过程——例如，离子通道蛋白从关闭状态到开启状态的构象变化，控制着细胞的离子流动，并且对于神经信号传导至关重要。这样的转变在实际系统中可能需要毫秒到秒的时间，但在甚至一次长时间连续模拟中也可能会需要数月至数年的时间。我们提出了一种方法，将转变路径的生成重新表述为通过物理保真的神经网络（PINNs）求解的连续优化问题，这些PINNs受到用于最小能量路径（MEP）生成的弦方法的启发。通过将转变路径表示为隐式神经函数，并利用可微分子动力学势场进行自动微分，我们的方法能够高效地发现物理上可行的转变路径，而无需进行昂贵的路径采样。我们通过两个蛋白质的例子展示了该方法的有效性，包括一个含有超过8,300个原子的明水牛胰蛋白酶抑制剂（BPTI）系统。

发布时间: 4/29/2025

查看原文