arXiv 论文列表

作者: Kacper Sokol, Edward Small, Yueqing Xuan

arXiv:2306.02786v4 宣布类型: replace-cross 摘要：当任务是解释（不透明的）预测模型的决策时，反事实解释实际上已成为标准。它们的生成通常受到技术和特定领域约束的限制，旨在最大化其实际用途。除了考虑反事实实例本身相关的理想标准外，近来确保存在一条可行的路径将它与事实数据点连接起来的重要性也得到了认可。虽然当前的可解释性方法确保存在这样旅程的每一步及其目的地都符合所选的约束条件，它们却忽视了这些反事实路径的多样性。为解决这一缺陷，我们引入了新的解释多元宇宙的概念，涵盖了所有可能的反事实旅程。我们利用向量空间定义它，并展示如何在其内部导航、推理和比较反事实轨迹的几何特性。为此，我们概述了这些空间属性——如亲和性、分叉、发散及可能的未来汇聚——并提出了一个综合度量，称为机会潜力，来量化它们。值得注意的是，我们方法提供的解释过程赋予了解释者的更多自主权，不仅允许他们根据绝对差异选择反事实，还允许他们根据连接路径的特性选择反事实。为了展示解释多元宇宙在实际生活中的灵活性、益处和有效性，我们提出了它的图基于实现，并在此基础上对六个表格和图像数据集进行了定性和定量评估。

发布时间: 4/10/2025

查看原文

基于深度编码-解码模型的油 spills 分割

作者: Abhishek Ramanathapura Satyanarayana, Maruf A. Dhali

arXiv:2305.01386v2 宣告类型: 替换-交叉摘要: 石油是世界经济和交通运输的关键组成部分。由于其广泛应用，石油需求不断增长，随之而来的是不可预见的石油泄漏。尽管清理石油泄漏极为困难，但首要挑战是检测这些泄漏。在本研究中，作者测试了深度编码器-解码器模型的有效性，这些模型可以被有效训练以实现远程检测石油泄漏。该研究检查并比较了几种分割模型在高维卫星合成孔径雷达(SAR)图像数据上的结果，为深入研究铺平道路。进行了多种模型组合的实验。表现最好的模型是使用ResNet-50编码器和DeepLabV3+解码器的组合。与之前基准模型相比，该模型在“石油泄漏”类别上的平均交并比(IoU)为64.868%，类别交并比(class IoU)为61.549%。而基准模型在“石油泄漏”类别上的平均IoU为65.05%，类别IoU为53.38%。

发布时间: 4/10/2025

查看原文

LostPaw：使用基于对比学习的变换器和视觉输入寻找失踪宠物

作者: Andrei Voinea, Robin Kock, Maruf A. Dhali

arXiv:2304.14765v2 通知类型: replace-cross 摘要：丢失宠物对宠物主人来说可能是非常痛苦的，找到丢失的宠物往往也是颇具挑战性和耗时的。基于人工智能的应用可以显著提高找到丢失宠物的速度和准确性。为了支持这样的应用，这项研究介绍了一种对比神经网络模型，该模型能够准确地区分宠物图像。该模型在大量的狗图像数据集上进行了训练，并通过三折交叉验证进行了评估。经过350个训练周期后，模型的测试准确率达到了90%。此外，通过避免过拟合，测试准确率与训练准确率非常接近。我们的研究结果表明，对比神经网络模型有望作为一种工具来帮助寻找丢失的宠物。本文提出了一个潜在网络应用的基础框架，该应用旨在帮助用户查找丢失的宠物。用户可以上传丢失宠物的照片，并在图像数据库中找到匹配的图像时接收通知。这一功能旨在提高宠物主人查找和与心爱的宠物团聚的效率和准确性。

发布时间: 4/10/2025

查看原文

Leanabell-Prover: 正则训练后的放大规模优化

作者: Jingyuan Zhang, Qi Wang, Xingguang Ji, Yahui Liu, Yang Yue, Fuzheng Zhang, Di Zhang, Guorui Zhou, Kun Gai

arXiv:2504.06122v2 声明类型: 替换摘要: 通过大语言模型（LLM）在自动定理证明（ATP）方面取得的最近进展，突显了Lean 4代码形式推理的潜力。然而，ATP尚未因OpenAI的O1/O3和Deepseek的R1所展示的后续训练缩放而实现革命性的变革。在本文中，我们研究了整个后续训练过程，旨在使其与自然语言推理模型的突破相一致。首先，我们使用包含大量命题-证明配对以及旨在纳入模拟人类推理和假设完善的认知行为的额外数据，持续训练当前的ATP模型。其次，我们探索了通过Lean 4编译器返回的结果奖励进行强化学习的方法。通过我们设计的持续训练和强化学习过程，我们成功改进了现有的形式证明器，包括DeepSeek-Prover-v1.5和Gödel-Prover，并在整体证明生成领域达到了最先进的性能。例如，在MiniF2F中，我们实现了32%处的59.8%通过率（pass@32）。这是一个正在进行的项目，我们将逐步更新我们的发现，发布我们的数据和训练细节。

发布时间: 4/10/2025

查看原文

使用大语言模型进行算法发现：进化搜索遇上了强化学习

作者: Anja Surina, Amin Mansouri, Lars Quaedvlieg, Amal Seddas, Maryna Viazovska, Emmanuel Abbe, Caglar Gulcehre

arXiv:2504.05108v2 宣告类型: 替换摘要：发现解决复杂问题的高效算法一直是数学和计算机科学领域的突出挑战，多年来需要大量的专业知识。近年来，通过大规模语言模型（LLMs）进行进化搜索的进步在加速各种领域的算法发现方面展现了潜力，尤其是在数学和优化领域。然而，现有方法将LLM视为静态生成器，错过了利用进化探索中获得的信号来更新模型的机会。在本文中，我们提出了一种通过强化学习（RL）微调来不断优化搜索操作符——LLM——的方法，以增强基于LLM的进化搜索。我们的方法利用进化搜索作为探索策略来发现改进的算法，而RL根据这些发现优化LLM策略。我们在三个组合优化任务——装箱问题、旅行商问题和平板包装问题——上的实验表明，结合RL和进化搜索可以提高改进算法发现的效率，展示了增强强化学习的进化策略在协助计算机科学家和数学家进行更高效的算法设计方面的潜力。

发布时间: 4/10/2025

查看原文

数字基因：通过分析概念学习物理世界

作者: Jianhua Sun, Cewu Lu

arXiv:2504.04170v2 更新类型: 更新摘要: 回顾过去十年人工智能的进步，各种显著的发展（例如物体检测、图像生成、大型语言模型）使AI系统能够生成更具语义意义的输出，并且在互联网场景中得到了广泛采用。然而，AI系统在理解并交互于物理世界时仍然面临挑战。这揭示了一个重要的问题：仅依赖于从互联网数据（例如文本、图像）中学习的语义级概念来理解物理世界远远不够——目前机器智能缺乏一种有效的方法来学习物理世界。本文提出了分析概念的思想——通过数学程序的程序表示与物理世界相关的概念，为机器智能提供了一种感知、推理和与物理世界交互的途径。除了详细阐述设计哲学并提供在分析概念方面的应用指南外，本文还介绍了围绕分析概念建立的基础架构。我的研究旨在为以下问题做出贡献：什么样的抽象化的一般概念适合机器智能？如何系统地将结构化先验与神经网络结合以约束AI系统遵守物理定律？

发布时间: 4/10/2025

查看原文

旋转位板和在国际象棋及其他领域的强化学习

作者: Johannes Buchner

arXiv:2503.10822v2 公告类型:替换摘要:已经在计算机中表示象棋棋盘的技术存在多种方法。本文的第一部分解释了位板表示法的概念以及旋转位板在生成 move 操作中的优势。为了具体说明这些想法，我们讨论了 FUSc# 中 move 生成器的实现，并解释了如何使用“perft”命令验证 move 生成器的方法。我们展示了 FUSc# 的 move 生成器完全正确。文章的第二部分讨论了计算机象棋中的强化学习（以及更广泛的领域）。通过将 2002-2008 年 FUSc# 发展时期的“最新技术”与最近与“AlphaZero”相关的创新进行比较，我们展示了在过去 15-20 年中该领域取得的进步。我们讨论了如何实现一个 FUSc#-Zero，并讨论减少达到良好性能所需训练游戏数量所需要的条件。这可以被视为提高强化学习中“样本效率”的普遍问题的一个测试案例。在最后一部分中，我们超越了计算机象棋，因为样本效率的重要性远远超出了棋盘游戏，扩展到了数据获取成本高、难以获得或生成时间长的一系列应用领域。我们回顾了 AlphaZero 在其他领域中发展的想法的应用，即“其他 Alpha”如 AlphaFold、AlphaTensor、AlphaGeometry 和 AlphaProof。我们还讨论了未来研究以及此类方法在生态经济发展规划中的潜力。

发布时间: 4/10/2025

查看原文

向推理时代迈进：关于推理大型语言模型的长链推理综述

作者: Qiguang Chen, Libo Qin, Jinhao Liu, Dengyun Peng, Jiannan Guan, Peng Wang, Mengkang Hu, Yuhang Zhou, Te Gao, Wanxiang Che

arXiv:2503.09567v3 宣告类型: 替换摘要: 在大型语言模型（RLLMs）推理方面最近取得的进步，例如OpenAI-O1和DeepSeek-R1，在数学和编程等复杂领域展示了其令人印象深刻的性能。他们成功的关键因素在于长链推理（Long CoT）特征的应用，这些特征增强了推理能力并使解决复杂问题成为可能。然而，尽管这些进展，关于Long CoT的全面调查仍然缺乏，限制了我们对其与传统的短链推理（Short CoT）区别的理解，同时也复杂了关于“过度思考”和“测试时缩放”等问题的持续争论。本调查旨在通过提供一个统一的Long CoT视角来填补这一空白。(1) 首先，我们将Long CoT与Short CoT区分开，并引入一个新颖的分类法来分类当前的推理范式。(2) 接着，我们探讨了Long CoT的关键特征：深层推理、广泛探索和可行反思，这些特征使模型能够处理更复杂的任务并产生比浅层Short CoT更高效、更连贯的结果。(3) 我们还研究了这些特征导致Long CoT出现的关键现象，包括过度思考和测试时缩放，提供了这些过程在实践中的表现见解。(4) 最后，我们确定了关键的研究空白并突出了未来有希望的方向，包括多模态推理的整合、效率改进和增强知识框架。通过提供一个结构化的概览，本调查旨在激发未来的研究，并促进人工智能逻辑推理的发展。

发布时间: 4/10/2025

查看原文

ChatGPT-4 在图灵测试中的批判性分析

作者: Marco Giunti

arXiv:2503.06551v3 宣告类型: 修订摘要：本文批评了Restrepo Echavarría (2025) 近期发表的论文 "ChatGPT-4 在图灵测试中的表现" 中的核心主张，即缺乏最小严肃性的测试实施，并得出ChatGPT-4未能通过图灵测试的结论。分析显示，基于严格的标准和有限实验数据的批评并不完全站得住脚。更重要的是，论文做出了多项建设性的贡献，丰富了我们对图灵测试实施的理解。它证明了两种不同的格式——三人玩家测试和二人玩家测试——都是有效的，每种都有独特的元方法论影响。该项工作区分了绝对标准（反映三人玩家格式下的最优50%识别率）和相对标准（衡量机器表现与人类表现的接近程度），从而提供了一个更细致的评估框架。此外，论文通过将两种测试类型建模为伯努利实验——三玩家版本相关，二人玩家版本不相关，澄清了两种测试类型的概率基础。这种形式化允许在理论上定义通过测试的标准，这些标准用概率术语描述，以及需要稳健的统计方法来正确解释的实验数据之间进行严格的区分。因此，这篇论文不仅驳斥了受批评研究的关键方面，还为未来研究如何更接近或偏离人类行为的AI行为客观衡量标准奠定了坚实的基础。

发布时间: 4/10/2025

查看原文

Dolphin: 通过思考、实践和反馈朝着闭环自动化研究迈进

作者: Jiakang Yuan, Xiangchao Yan, Shiyang Feng, Bo Zhang, Tao Chen, Botian Shi, Wanli Ouyang, Yu Qiao, Lei Bai, Bowen Zhou

arXiv:2501.03916v3 闭环类型: 替换摘要：科学研究范式正在由于人工智能（AI）的发展而经历一场深刻的转变。近期的研究表明，各种AI辅助的研究方法可以通过改进数据分析、加快计算以及促进新颖想法的生成，大大提升研究效率。为了进一步向最终目标（即自动科学研究）迈进，在本文中，我们介绍了一种闭环的以LLM驱动的框架Dolphin，以提高科学研究的自动化水平。Dolphin首先基于之前实验和按主题及任务属性排序的相关论文的反馈生成新颖的想法。然后，生成的想法可以通过一个经过设计并调试好的异常跟踪指导的局部代码结构实现模板来实现。最后，Dolphin会自动分析每个想法的结果，并将结果反馈到下一轮想法生成中。在不同主题的基准数据集和MLE-bench的一部分数据集上进行了实验。结果显示，Dolphin可以在循环中持续改善输入主题的表现。我们强调，Dolphin能够自动提出与某些任务（如3D点分类）的最新方法相当的方法。

发布时间: 4/10/2025

查看原文