arXiv 论文列表

作者: Azim Ospanov, Farzan Farnia, Roozbeh Yousefzadeh

arXiv:2505.05758v2 宣告类型: 修改摘要: 正式推理和自动定理证明是机器学习的一个具有挑战性的子领域，在这个领域中，机器使用形式语言（如Lean）来证明数学定理。形式验证系统几乎可以瞬时检查一个形式证明是否正确，但使用大型语言模型（LLMs）生成一个完全正确的形式证明仍然是一个艰巨的任务。文献中通常的做法是多次提示LLM（多达几千次），直到其中一个生成的证明通过验证系统。在本文中，我们介绍了APOLLO（Automated PrOof repair via LLM and Lean cOllaboration，通过LLM和Lean协作进行自动证明修复）模块化、模型无感知的管道，该管道结合了Lean编译器的优势和LLM的推理能力，以实现更低采样预算下的更佳证明生成效果。Apollo指导一个完全自动化的过程，在此过程中，LLM为定理生成证明，一组代理分析证明、修正语法错误、使用Lean识别证明中的错误、隔离失败的子引理、利用自动化求解器，并以低Top-K预算在每个剩余的目标上调用LLM。修复的子证明被重新组合和重新验证，迭代到用户控制的最大尝试次数。在miniF2F基准测试中，我们在7B参数模型中建立了75.0%的新最高精度，同时保持采样预算低于一千。此外，Apollo将Goedel-Prover-SFT的最高精度从65.6%提高到从25,600减少到几百个样本。通用模型（o3-mini, o4-mini）的精度从3-7%提高到超过40%。我们的结果表明，面向特定目标、由编译器引导的LLM输出修复能够显著提高效率和正确性，这表明一种大规模自动定理证明的通用范式。

发布时间: 5/13/2025

查看原文

基于多模态数据和深度机器学习方法的疼痛评估框架

作者: Stefanos Gkikas

arXiv:2505.05396v2 公告类型: 修改摘要: 原始摘要：该论文最初旨在从临床理论的角度研究疼痛评估过程，同时探索和考察现有的自动评估方法。在此基础上，本博士项目的首要目标是开发创新的计算方法，这些方法在性能上表现出色，并适用于实际临床环境中的自动疼痛评估。主要目标之一是从计算视角全面调查和评估涉及疼痛感知的重要因素，包括疼痛研究中识别的与人口统计特征相关的因素。在这一研究领域的数据限制内，我们的目标是设计、开发、提出并提供适用于不同场景特定需求的单模态和多模态自动疼痛评估管道。本博士论文中发表的研究展示了所提出方法的有效性，达到了最先进的成果。此外，它们为探索人工智能、基础模型和生成人工智能的新方法奠定了基础。

发布时间: 5/13/2025

查看原文

超越公共资源悲剧：为生成型多智能体系统构建声誉系统

作者: Siyue Ren, Wanli Fu, Xinkun Zou, Chen Shen, Yi Cai, Chen Chu, Zhen Wang, Shuyue Hu

arXiv:2505.05029v2 宣告类型: 替换摘要: 共有悲剧是指个体的自我利益可能导致集体灾难性结果的现象，这是人类社会中普遍存在的一项挑战。最近的研究表明，在生成型多智能体系统（MASs）中也会出现类似的现象。为了应对这一挑战，本文探讨了使用声誉系统作为解决方案的可能性。我们提出了一种动态的双层声誉框架RepuNet，该框架同时建模了智能体级别的声誉动态和系统级别的网络演化。具体来说，通过直接交互和间接八卦，智能体为自己和同伴形成声誉，并决定是否与其他智能体建立或断开联系以供将来交互。通过两种不同的场景，我们展示了RepuNet能够有效地缓解“共有悲剧”，促进并在生成型MASs中维持合作。此外，我们发现，声誉系统可以在生成型MASs中引发丰富的 Emergent 行为，如合作集群的形成、剥削性智能体的社会孤立，以及偏好传播正面八卦而不是负面八卦。

发布时间: 5/13/2025

查看原文

LLM引导的_probabilistic程序归纳以估计POMDP模型

作者: Aidan Curtis, Hao Tang, Thiago Veloso, Kevin Ellis, Joshua Tenenbaum, Tom\'as Lozano-P\'erez, Leslie Pack Kaelbling

arXiv:2505.02216v2 通知类型: 替换摘要: 部分可观测马尔可夫决策过程（POMDPs）用于在不确定性下进行决策建模。虽然有许多近似解决POMDP的方法，但我们致力于解决学习此类模型的问题。特别是，我们对POMDP的一个子类感兴趣，在这个子类中，模型的组件，包括观测函数、奖励函数、转移函数和初始状态分布函数，可以建模为简短的概率程序形式的低复杂度概率图形模型。我们学习这些程序的策略使用LLM作为先验，生成候选的概率程序，然后测试这些概率程序与经验分布的一致性，并通过反馈进行调整。我们在一些经典的玩具POMDP问题、模拟MiniGrid领域和两个涉及部分可观测性的实际移动机器人搜索领域进行了实验。我们的结果表明，使用LLM指导低复杂度POMDP模型的构建比表 lookup POMDP学习、行为克隆或直接LLM规划更为有效。

发布时间: 5/13/2025

查看原文

adversarial 合作合理化：即使在干净数据集中也存在的虚假相关性的风险

作者: Wei Liu, Zhongyu Niu, Lang Gao, Zhiying Deng, Jun Wang, Haozhao Wang, Ruixuan Li

arXiv:2505.02118v3 宣告类型: 修订摘要：本研究调查了一种基于合作博弈的自我理性化框架，其中生成器最初从原始输入中提取最具有信息性的片段，随后的预测器则利用选定的子集作为输入。生成器和预测器通过协作训练以最大化预测准确性。在本文中，我们首先揭示了一个潜在的问题：这种合作博弈可能会无意中在理性化提取过程中引入采样偏差。具体而言，生成器可能会无意中在所选的理由候选和标签之间建立错误的相关性，即使在原始数据集中的它们在语义上是无关的。随后，我们利用详细的理论分析和实验证据解释了这种偏差的来源。我们的研究结果表明可以通过攻击来检查这些相关性的一个方向，并在此基础上进一步引入一条指令，以防止预测器学习这些相关性。通过在六个文本分类数据集和两个图分类数据集上使用三种网络架构（GRUs、BERT和GCN）进行的实验，我们展示了我们的方法不仅显著优于最近的理性化方法，而且在某些情况下甚至优于一个代表性的大型语言模型（llama3.1-8b-instruct）。

发布时间: 5/13/2025

查看原文

人工智能中的情绪

作者: Hermann Borotschnig

arXiv:2505.01462v2 宣告类型: 修改摘要：本文提供了一个关于人工智能系统如何模仿人类和动物所体验情绪的推测性观点。文中提出了一种基于假设的思想实验，即自然情绪进化为快速情境评估和行动选择的启发式方法，以便在不需要进行完整的推理建模的情况下实现生物适应性行为。文本探讨了在复杂行动空间中运作的人工系统能否从这些原则中获益。建议通过在所有事件旁边存储相应的感受标签，将情感与事件记忆交织在一起。这使人工智能能够判断当前情况是否类似过去的情况，并将相关的感情标签投射到当前的上下文环境中。这些情感提示随后与需求驱动的情感线索结合。由此结合的情感状态通过调节行动选择来促进当前的决策制定。文中强调所提议架构的低复杂度和经验惰性，证明情感表达和意识在原则上是独立的，允许理论上的情感僵尸的可能性。基于此，仔细检视了模仿情感状态的人工智能的道德地位。认为内部情绪表示的存在或意识本身不足以构成道德地位；相反，内在意识状态的自我意识能力被提出为必要条件。提出了基于复杂性的标准来排除这些意识在所展示的模型中。还提出了更多思想实验来测试此框架的概念边界。

发布时间: 5/13/2025

查看原文

leaderboard 幻象

作者: Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet \"Ust\"un, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah A. Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker

arXiv:2504.20879v2 公告类型：替换摘要：衡量进展是任何科学领域发展的基础。随着基准测试在其中发挥越来越核心的作用，它们也变得更加容易受到扭曲的影响。Chatbot Arena 已经成为评估最强大人工智能系统的首选排行榜。然而，在这项工作中，我们识别出了系统性问题，这些问题导致了比赛环境的扭曲。我们发现，未公开的私人测试实践为少数供应商提供了优势，这些供应商能够在公开发布前测试多个变体，并在需要时撤回评分。我们证明，这些供应商能够选择最佳评分的能力导致了由于选择性披露性能结果而导致的Arena评分偏差。在极端情况下，我们识别出 Meta 在Llama-4 发布前测试了 27 种私人 LLM 变体。我们还确定，专有的封闭模型被抽样率更高（比赛次数），并且被移出竞技场的模型较少，这与开源和开放代码的替代品形成对比。这两种政策随着时间的推移导致了数据访问不对称性。像谷歌和OpenAI这样的提供商分别估计获得了竞技场数据的19.2%和20.4%。相比之下，组合起来共83个开源模型仅获得了估计总数据的29.7%。我们展示，获取Chatbot Arena的数据带来了显著的好处；即使是有限的额外数据也可以基于我们的保守估计，在竞技场分布中带来高达112%的相对性能提升。这两种动态导致了对竞技场特定动态的过度拟合，而不是对一般模型质量的关注。Chatbot Arena 基于组织者和维护这一宝贵评价平台的开放社区的巨大努力。我们提出了针对Chatbot Arena评估框架的可操作建议，以促进更公平、更透明的基准测试，为该领域服务。

发布时间: 5/13/2025

查看原文

ApproXAI：使用近似计算实现可解释AI的能效硬件加速

作者: Ayesha Siddique, Khurram Khalil, Khaza Anuarul Hoque

arXiv:2504.17929v2 宣告类型: 替换摘要：可解释的人工智能（XAI）通过将可解释性视为一个优化问题来增强人工智能系统的透明度。然而，这种方法往往需要多次进行计算密集的操作，从而限制了其在实时场景中的应用。虽然最近的研究集中在使用FPGA和TPU加速XAI硬件上，但这些方法在实时场景中并未充分解决能源效率问题。为了解决这一限制，我们提出了一种名为XAIedge的新框架，该框架利用近似计算技术将XAI算法，包括集成梯度、模型蒸馏和沙普利分析，集成到其中。XAIedge将这些算法转换为近似矩阵计算，并利用卷积、傅里叶变换和近似计算范式之间的协同作用。这种方法在基于TPU的边缘设备上实现高效的硬件加速，使得实时结果解释更快。我们的全面评估表明，XAIedge在保持与现有准确的XAI硬件加速技术相当的准确性的同时，能实现2倍的能源效率改进。这些结果展示了XAIedge在能源受限的实时应用中大幅推进可解释AI部署的潜力。

发布时间: 5/13/2025

查看原文

任务特定推理模型中自我验证的几何学

作者: Andrew Lee, Lihao Sun, Chris Wendler, Fernanda Vi\'egas, Martin Wattenberg

arXiv:2504.14379v2 声明类型: 替换摘要：推理模型是如何验证自己的答案的？我们通过使用 DeepSeek R1 的配方在 CountDown 任务上训练一个模型来研究这个问题。我们利用偏好调整会导致模式坍塌的事实，从而得到一个总是生成高度结构化的推理序列的模型。在这种设定下，我们进行了自上而下的和自下而上的分析，以反向工程模型是如何验证其输出的。自上而下，我们发现门线性单元（GLU）权重编码验证相关的令牌，如“成功”或“错误”。自下而上，我们发现“前一个令牌头部”主要负责我们在这种设定下的自我验证。我们的分析相辅相成：借鉴跨层通信通道的灵感，我们使用识别出的 GLU 权重来定位最少三个可以禁用自我验证的注意力头，指出一个潜在更大验证电路的必要组成部分。最后，我们验证了类似验证组件在我们的基础模型和通用推理 DeepSeek-R1 模型中也存在。

发布时间: 5/13/2025

查看原文

一种进步的幻象？评估当前网络代理的状态

作者: Tianci Xue, Weijian Qi, Tianneng Shi, Chan Hee Song, Boyu Gou, Dawn Song, Huan Sun, Yu Su

arXiv:2504.01382v2 宣告类型: 替代摘要：随着数字技术和云技术的发展，互联网在现代社会中的重要性日益凸显。基于大规模语言模型（LLM）的自主网络代理具有在工作自动化方面巨大潜力。因此，准确测量和监控其能力的发展变得至关重要。在本文中，我们进行了一项全面而严谨的网络代理现状评估。我们的结果描绘了一幅与当前代理能力之前报道的结果截然不同的图景，表明了之前报告结果中的过度乐观。这一差距可以归因于现有基准中的不足。我们引入了Online-Mind2Web，这是一个在线评估基准，包括300个多样且真实的任务，覆盖136个网站。它使我们能够在接近真实用户使用这些代理的方式下评估网络代理。为了促进更具扩展性的评估和开发，我们还开发了一种新的LLM作为评委的自动评估方法，并展示了这种方法与人类判断的一致性约为85%，远高于现有方法。最后，我们呈现了当前网络代理的第一个全面比较分析，强调了它们的优点和局限性，以启发未来的研究。

发布时间: 5/13/2025

查看原文