arXiv 论文列表

作者: Xinhao Luo, Man Yao, Yuhong Chou, Bo Xu, Guoqi Li

arXiv:2407.20708v4 宣布类型: 替换摘要: 受脑启发的突触神经网络（SNNs）在生物可行性和低功耗方面优于人工神经网络（ANNs）。目前，SNNs的应用仅限于简单的分类任务，这是由于其性能较差。在这项工作中，我们专注于在对象检测方面弥合ANNs和SNNs之间的性能差距。我们的设计围绕网络架构和突触神经元展开。首先，过于复杂的模块设计导致将YOLO系列转换为其对应的突触版本时突触退化。我们设计了一个SpikeYOLO架构来解决这个问题，通过简化现有的YOLO并结合元SNN块来简化其结构。其次，对象检测对突触神经元在膜电位转换为二元突触时的量化误差更为敏感。为了解决这一挑战，我们设计了一种新的突触神经元，在训练期间激活整数值，同时在推理期间通过扩展虚拟时间步长来保持由突触驱动的特性。所提出的方法在静态和神经形态对象检测数据集上进行了验证。在静态COCO数据集上，我们获得了66.2%的mAP@50和48.9%的mAP@50:95，分别比之前的最先进SNN高出15.0%和18.7%。在神经形态Gen1数据集上，我们达到了67.2%的mAP@50，比具有同等架构的人工神经网络高2.5%，同时能量效率提高了5.7*。代码: https://github.com/BICLab/SpikeYOLO

发布时间: 4/16/2025

查看原文

“好的机器人总是知道自己的局限性”：通过因子化的机器自我信心评估自主系统决策能力

作者: Brett W. Israelsen, Nisar R. Ahmed, Matthew Aitken, Eric W. Frew, Dale A. Lawrence, Brian M. Argrow

arXiv:2407.19631v3 宣告类型：替换摘要：智能机器如何评估其完成任务的能力？这个问题对于在不确定条件下通过算法做出决策的自主系统来说变得尤为突出。我们主张，机器自信心——一种基于系统对自己关于世界状态、自身以及执行任务能力的自我评估而形成的元推理形式——能够导致许多可计算且有用的胜任能力指标。本文提出了到目前为止我们在这个概念上的工作，以Factorized Machine Self-confidence (FaMSeC)框架的形式呈现，该框架全面考虑了算法决策中几个主要影响胜任能力的因素：结果评估、求解器质量、模型质量、对齐质量以及过往经验。在FaMSeC中，通过嵌入马尔可夫决策过程求解器及相关方法中的“问题解决统计”来推导出自信心指标。这些统计来自于将概率性超限边缘与评估者规定的某些结果及相关胜任能力标准进行比较。一旦设计并评估完成后，这些统计可以轻松地纳入自主代理中，并作为其胜任能力的指标。我们为马尔可夫决策过程代理提供了详细的描述和示例，并展示了如何通过新颖地使用元效用函数、行为模拟和替代预测模型来找到不同任务背景下的结果评估和求解器质量因素。进行了数值评估以证明FaMSeC指标表现符合预期（在此论文范围之外的关于人类主体研究的参考附有）。

发布时间: 4/16/2025

查看原文

系统-1.x：学习平衡快速规划与缓慢规划的语言模型

作者: Swarnadeep Saha, Archiki Prasad, Justin Chih-Yao Chen, Peter Hase, Elias Stengel-Eskin, Mohit Bansal

arXiv:2407.14414v2 宣告类型:替换摘要：语言模型可以在两种不同的模式下解决长期计划问题：一种快速的“系统1”模式，直接生成计划而无需明确的搜索或回退；另一种缓慢的“系统2”模式，通过明确搜索可能的操作进行逐步计划。虽然系统2通常更有效，但它也更耗计算资源，使得对于长计划或大操作空间来说并不实际。此外，孤立的系统1或2无法考虑用户的最终目标，无法控制模型的行为。为此，我们提出了系统1.x规划器，这是一个基于LLM的可控规划框架，能够生成混合计划并根据手头问题的难度在两种规划模式之间进行平衡。系统1.x由以下三部分组成：(i) 控制器，(ii) 系统1规划器，和(iii) 系统2规划器。根据用户指定的混合因子(x)控制系统1和2间的混合比例，控制器将问题分解为子目标，并将它们分类为由系统1或2解决的容易或困难的目标。我们在此单一基础LLM之上对这三个组件进行微调，只需要搜索痕迹作为监督即可。实验使用两个不同的规划任务——迷宫导航和积木世界表明，我们的系统1.x规划器优于系统1规划器、被训练以近似A*搜索的系统2规划器，以及符号规划器(A*)。我们展示了我们规划器的以下关键特性：(1) 可控性：增加混合因子（例如，从系统1.75到1.5）会进行更多的搜索，从而改善性能；(2) 灵活性：通过构建神经-符号变体，使用神经系统1和符号系统2，我们可以利用现有的符号方法；(3) 通用性：由于能够从不同的搜索算法中学习，我们的方法对搜索算法的选择具有鲁棒性。

发布时间: 4/16/2025

查看原文

用户对齐的POMDP中信念状态查询策略

作者: Daniel Bramblett, Siddharth Srivastava

arXiv:2405.15907v2 宣告类型: 重置摘要: 在现实环境中进行规划时，通常需要解决部分可观测性问题同时满足用户的要求。我们提出了一种新的框架，通过部分可观测性目标导向部分可观测马尔可夫决策过程（gPOMDP）中的参数化信念状态查询（BSQ）策略来表达用户对智能体行为的约束和偏好。我们首次对这些约束进行了正式分析，并证明尽管参数化BSQ策略相对于其参数的成本期望函数不是凸的，但它是有分段常数的，并导致一个隐含的离散参数搜索空间，在有限的时间范围内是有限的。这一理论结果导致了新颖的算法，这些算法能够以用户对齐的方式优化gPOMDP智能体的行为。分析证明，我们的算法在极限情况下可以收敛到最佳用户对齐的行为。实验结果表明，参数化BSQ策略提供了一种在部分可观测环境中进行用户对齐规划的计算上可行的方法。

发布时间: 4/16/2025

查看原文

强化学习的经验解释

作者: Amal Alabdulkarim, Madhuri Singh, Gennie Mansi, Kaely Hall, Upol Ehsan, Mark O. Riedl

arXiv:2210.04723v5 公告类型: 替换摘要：强化学习（RL）系统可能复杂且难以解释，使得非AI专家难以理解或干预其决策。这在一定程度上是由于RL的顺序性质，即采取行动是因为其未来奖励的可能性。然而，RL代理会丢弃其训练中的定性特征，这使得恢复用户可理解的关于“为什么”采取某行动的信息变得困难。我们提出了一种称为经验解释的技术，通过与RL策略一起训练影响预测器来生成反事实解释。影响预测器是学习不同奖励来源如何在不同状态下影响代理的模型，从而恢复策略如何反映环境的信息。两项人类评估研究发现，与那些被呈现其他标准类型解释的参与者相比，被呈现经验解释的参与者更能够正确猜测代理会做什么。参与者还发现，经验解释更具可理解性、满意度、完整性、有用性和准确性。定性分析提供了关于经验解释最有用的因素以及参与者希望从解释中获得的特性信息。

发布时间: 4/16/2025

查看原文

DeepMath-103K：一个大规模、具有挑战性、去污染化且可验证的数学数据集，用于提升推理能力

作者: Zhiwei He, Tian Liang, Jiahao Xu, Qiuzhi Liu, Xingyu Chen, Yue Wang, Linfeng Song, Dian Yu, Zhenwen Liang, Wenxuan Wang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu

arXiv:2504.11456v1 宣称类型：交叉摘要：复杂的数学推理能力是人工智能的关键基准。尽管将强化学习（RL）应用于大规模语言模型（LLMs）显示出前景，但在大规模挑战性训练数据、适用于RL的可验证答案格式以及无污染的评估基准的缺乏方面仍存在重大障碍。为了解决这些限制，我们引入了DeepMath-103K，这是一个新的大规模数据集，包含约103,000个数学问题，并专门设计用于通过RL训练高级推理模型。DeepMath-103K通过严格的源分析、严格的针对众多基准的去污和过滤高难度（主要为级别5-9）的过程来构建，大幅超过了现有的开放资源在挑战方面的表现。每个问题都包含一个可验证的最终答案，支持基于规则的RL，并提供了三种不同的由R1生成的解决方案，适用于监督微调或蒸馏等多样化的训练范式。深涉广泛的数学主题，DeepMath-103K促进了通用推理的发展。我们证明，使用DeepMath-103K训练的模型在困难的数学基准测试上取得了显著改进，验证了其有效性。我们公开释放DeepMath-103K，以促进社区在构建更强大的AI推理系统方面的发展：https://github.com/zwhe99/DeepMath。

发布时间: 4/16/2025

查看原文

阐明多模态蛋白质语言模型的设计空间

arXiv:2504.11454v1 宣告类型: cross 摘要: 多模态蛋白质语言模型(PLMs)整合了序列和基于标记的结构信息，为蛋白质建模、生成和设计提供了强大的基础。然而，将3D结构分词成离散标记的做法导致了对细粒度结构细节和相关性的大量信息损失。在本文中，我们系统地阐述了多模态PLMs的设计空间，以克服其局限性。我们识别出分词损失以及PLMs对结构标记的不准确预测是主要瓶颈。为解决这些问题，我们提出的设计空间涵盖了改进的生成建模、结构感知架构和表示学习，以及数据探索。我们的进展接近了更细粒度的监督，表明基于标记的多模态PLMs能够实现稳健的结构建模。有效的设计方法显著提高了结构生成多样性，并大幅提升我们6.5亿模型的折叠能力，RMSD从5.52降低到2.36，甚至优于30亿次基线，并与专门的折叠模型相当。

发布时间: 4/16/2025

查看原文

offline reinforcement learning从头开始

作者: Matthew Thomas Jackson, Uljad Berdica, Jarek Liesen, Shimon Whiteson, Jakob Nicolaus Foerster

arXiv:2504.11453v1 宣布类型: cross 摘要: 在线下强化学习（RL）方面的进展受到了模糊的问题定义和纠缠的算法设计的阻碍，导致了不一致的实现、不充分的消融实验以及不公平的评估。尽管线下RL显式地避免了环境交互，但先前的方法经常使用广泛的、未记录的线上评估来进行超参数调整，从而增加了方法比较的复杂性。此外，现有的参考实施在样板代码方面存在显著差异，这掩盖了它们的核心算法贡献。我们通过首先引入一个严格的分类学和透明的评估协议来解决这些挑战，该协议明确量化了线上的调优预算。为了解决不透明的算法设计，我们提供了各种模型自由和模型依赖的线下RL方法的简洁、最少化、单文件实现，极大地提高了清晰度并实现了显著的速度提升。利用这些精简的实现，我们提出了Unifloral，这是一种统一算法，将各种先前的方法封装到一个全面的超参数空间中，从而在共享的超参数空间中实现算法开发。使用我们的严格评估协议和Unifloral，我们开发了两个新的算法——TD3-AWR（模型自由）和MoBRAC（模型依赖），它们在现有基准方法上表现出显著的优势。我们的实现可在 https://github.com/EmptyJackson/unifloral 获取。

发布时间: 4/16/2025

查看原文

文本竞技场

作者: Leon Guertler, Bobby Cheng, Simon Yu, Bo Liu, Leshem Choshen, Cheston Tan

arXiv:2504.11442v1 类型: 交叉摘要: TextArena 是一个开源的基于文本的竞争游戏集合，用于大型语言模型（LLMs）的代理行为训练和评估。它涵盖了 57+ 种独特的环境（包括单人游戏、双人游戏和多人游戏设置），并通过在线游戏系统（与人类和其他提交的模型对战）提供实时 TrueSkill 分数来轻松评估模型的能力。传统的基准测试很少评估如谈判、共情和欺骗等动态社会技能，创建了一个 TextArena 所解决的缺口。TextArena 旨在考虑到研究、社区和可扩展性，在易于添加新游戏、适应框架、测试模型、与模型对战以及训练模型方面进行了重点强调。关于环境、游戏、排行榜和示例的详细文档可在 https://github.com/LeonGuertler/TextArena 和 https://www.textarena.ai/ 上找到。

发布时间: 4/16/2025

查看原文

贪婪重启调度：数值黑盒优化问题中动态算法选择的基础基准

作者: Lennart Sch\"apermeier

arXiv:2504.11440v1 通知类型: 跨领域摘要: 在许多优化领域中，存在多种不同的求解器，这些求解器在某些类型的优化问题上表现优异，在其他类型的问题上则表现较差。元算法方法，如基于实例的算法选择、配置和调度，旨在通过从一系列可配置的优化器中提取最大的性能来弥补这一差距。在这个背景下，表现最好的单个算法通常是由手工构建的混合启发式算法，这些算法多次重启快速局部优化方法。然而，通过数据驱动的方法来创建优化重启计划尚未得到广泛的探索。在这里，我们提出了一种简单的调度方法，该方法在选择算法时迭代选择在未解决的训练问题分布表现最好的算法，从而得到一个与问题无关的求解器调度。我们使用数值黑盒优化中的知名优化器在BBOB测试平台上展示了这种方法，跨越了原优化器组合中单一最佳求解器和虚拟最佳求解器之间的大部分性能差距。我们的贪婪重启调度为更复杂的动态算法选择模型提供了一个强大的基准。

发布时间: 4/16/2025

查看原文