arXiv 论文列表

跳跃式的推理曲线？追踪 GPT-[n] 和 o-[n] 模型在多模态谜题上的推理性能演变

作者: Vernon Y. H. Toh, Yew Ken Chia, Deepanway Ghosal, Soujanya Poria

arXiv:2502.01081v1 交叉类型: 公告摘要：OpenAI 的 o1 和 o3 的发布标志着大型语言模型向高级推理能力的一个重要范式转变。值得注意的是，o3 在人工通用智能抽象和推理语料库（ARC-AGI）的新型问题解决和技能获取方面超过了人类。然而，这一基准仅限于符号模式，而人类通常会处理涉及视觉和语言数据的多模态场景。因此，需要迫切研究多模态任务中的高级推理能力。为此，我们跟踪了 GPT-[n] 和 o-[n] 系列模型在具有精细视觉感知和抽象或算法推理要求的挑战性多模态谜题上的演化。o1 的优异表现几乎是 GPT-4o 计算成本的 750 倍，引发了对其效率的担忧。我们的结果显示，推理能力在模型迭代中呈现出明显的上升趋势，GPT 系列模型之间的性能跃升尤为显著，随后是 o1。然而，我们观察到 o1 模型仍然在需要抽象推理的简单多模态谜题上存在问题。此外，其在算法谜题上的表现也很差。我们计划继续跟踪该系列中的新模型，并相应地更新本论文中的结果。所有用于此评估的资源均可公开获得：https://github.com/declare-lab/LLM-PuzzleTest。

发布时间: 2/4/2025

查看原文

学习布尔函数的非线性：神经网络的实验探究

作者: Sriram Ranga, Nandish Chattopadhyay, Anupam Chattopadhyay

arXiv:2502.01060v1 类别: cross 摘要：本文探讨了使用神经网络学习布尔函数非线性性质的可学习性。我们训练了编码风格的深度神经网络，使其能够从形式为真值表的函数及其相应的非线性值的示例中预测非线性性质。我们报告了实验证据表明，深度神经网络能够在4和5个变量的函数上以超过95%的准确性学习预测该性质。虽然这些结果是积极的，并且首次对这一问题进行了系统的分析，我们还需要强调一个法定警告，即将这一想法扩展到更多的变量似乎是一项挑战，并且也不清楚是否能够在时间和空间复杂度上相对于现有的组合算法获得优势。

发布时间: 2/4/2025

查看原文

使用大型语言模型合成光合作用研究知识

作者: Seungri Yoon, Woosang Jeon, Sanghyeok Choi, Taehyeong Kim, Tae In Ahn

arXiv:2502.01059v1 Announce Type: cross 摘要：生物数据处理工具的发展和大型语言模型（LLMs）的出现，为利用AI在植物科学研究中提供了新的可能性，有可能显著促进知识整合和研究缺口的识别。然而，当前的LLMs在处理光合作用研究中的复杂生物数据和理论模型方面存在困难，经常无法提供准确的科学背景。因此，本研究基于OpenAI的GPT-4o提出了一个基于检索增强生成（RAG）技术和提示优化的光合作用研究助手（PRAG）。在提示优化过程中使用向量数据库和自动反馈循环，以提高与光合作用相关查询回应的准确性和相关性。PRAG在五个与科学写作相关的指标上平均提高了8.7%，源透明度提高了25.4%。此外，其科学深度和领域覆盖率与光合作用研究论文相当。使用知识图谱结构化PRAG的响应，将其与数据库内外的论文进行匹配，使得PRAG能够分别匹配数据库和测试论文中的63%和39.5%的关键实体。PRAG可以应用于光合作用研究以及更广泛的植物科学领域，为更深入的数据分析和预测能力铺平了道路。

发布时间: 2/4/2025

查看原文

FetDTIAlign：胎儿脑扩散磁共振成像的仿射和变形配准深度学习框架

作者: Bo Li, Qi Zeng, Simon K. Warfield, Davood Karimi

arXiv:2502.01057v1 Announce Type: cross 摘要：扩散磁共振成像（dMRI）为产前胎儿大脑微观结构提供了独特的见解。纵向和横断面胎儿dMRI研究可以揭示重要的神经发育变化，但要求各扫描和受试者之间精确的空间对齐。这由于数据质量低、大脑快速发展和可利用的解剖标志有限而具有挑战性。现有的注册方法是为高质量成人数据设计的，难以应对这些复杂性。为了解决这一问题，我们引入了FetDTIAlign，这是一种用于胎儿大脑dMRI注册的深度学习方法，能够实现精确的仿射和非刚性对齐。FetDTIAlign具有双编码器架构和迭代基于特征的推理，减少了噪声和低分辨率的影响。它在每个配准阶段优化网络配置和领域特定特征，增强了稳健性和准确性。我们使用从妊娠第23周到第36周的数据，覆盖了60条白质纤维束，验证了FetDTIAlign的表现。它在一致性上始终优于两种经典的基于优化的方法和一个深度学习管道，实现了更优的解剖匹配。进一步在外数据集上的验证（来自发育中的人类连接组计划项目）证实了其在不同数据获取协议之间的普适性。我们的结果表明深度学习在胎儿大脑dMRI配准中的可行性，提供了比经典技术更准确和可靠的替代方案。通过实现精确的跨个体和纤维束特异性分析，FetDTIAlign支持了早期大脑发育的新发现。

发布时间: 2/4/2025

查看原文

可解释性的火花：解释大型视觉模型的 Recent 进展

作者: Thomas Fel

arXiv:2502.01048v1 交叉类型论文摘要：该论文探讨了通过分析和建模深度神经网络利用的特征来提高计算机视觉解释性的先进方法。首先，通过对归因方法，尤其是显著图，进行评估，引入了一个基于算法稳定性的度量标准，并采用Sobol指数的方法，通过准蒙特卡洛序列，显著减少了计算时间。此外，EVA方法提供了通过形式化验证扰动分析的第一种归因形式表述。实验结果显示，在复杂场景中，这些方法无法提供足够的理解，特别是因为它们仅能识别“模型集中在何处”而不解释“模型感知到什么”。因此，提出了两个假设：通过引入整合人类解释模仿和1-Lipschitz函数空间优化的训练过程，使模型与人类推理相一致；采用概念解释方法。提出了CRAFT方法来自动化提取模型使用的概念及其重要性的评估，并通过MACO使其可视化。这些工作朝着统一框架的方向发展，该框架通过应用于ResNet模型的1000个ImageNet类别中的交互式演示得到了体现。

发布时间: 2/4/2025

查看原文

鹰：早期近似梯度基于的学习率估计器

作者: Takumi Fujimoto, Hiroaki Nishi

arXiv:2502.01036v1 优化类型: 横向摘要: 我们提出了一种新颖的优化方法EAGLE更新规则，在训练早期阶段通过利用当前步骤和之前步骤的参数和梯度值来加速损失收敛。更新算法通过计算连续训练步骤中的参数和梯度变化，并利用这些变化得出的损失景观局部曲率来估计最优参数。然而，该更新规则可能存在不稳定性，为此，我们引入了一种自适应切换机制，该机制可以在Adam和EAGLE更新规则之间动态选择，以增强训练稳定性。在标准基准数据集上的实验表明，结合这种新颖的更新规则和切换机制的EAGLE优化器在较少的epochs数内实现了快速的训练损失收敛，优于传统的优化方法。

发布时间: 2/4/2025

查看原文

比特币交易费用预报的全面建模方法：一种比较研究

作者: Jiangqin Ma, Erfan Mahmoudinia

arXiv:2502.01029v1 宣告类型: cross 摘要：比特币生态系统中的交易费用预测代表了一个关键挑战，影响着用户的成本和矿工的收入优化。本研究系统评估了六种预测模型，以预测比特币交易费用在24小时（144个区块）内的未来情况：SARIMAX、Prophet、Time2Vec、带有注意机制的Time2Vec、结合梯度提升的SARIMAX混合模型，以及 Temporal Fusion Transformer (TFT)。我们的方法通过全面的功能工程，涵盖了内存池指标、网络参数和历史费用模式，以捕捉费用行为的多方面动态。通过严格的5折交叉验证和独立测试，我们的分析表明，传统的统计方法优于更为复杂的深度学习架构。SARIMAX模型在独立测试集上达到了更高的准确率，而Prophet在交叉验证中表现出色。值得注意的是，如Time2Vec和TFT等复杂的深度学习模型尽管结构复杂，但在预测能力上相对较低。这种性能差异可能源于相对受限的91天训练数据集，表明深度学习模型在拥有更长历史数据时可能会获得更好的结果。这些发现对加密货币利益相关者具有重要的实践意义，为费用敏感决策提供了基于实证的指导，并揭示了基于数据限制的模型选择中的关键考虑因素。研究奠定了高级费用预测的基础，同时突显了传统统计方法在该领域的当前优势。

发布时间: 2/4/2025

查看原文

轻松精炼自适应零阶优化

作者: Yao Shu, Qixin Zhang, Kun He, Zhongxiang Dai

arXiv:2502.01014v1 交叉类型摘要：最近，零阶（ZO）优化在无法获取或负担不起梯度信息的情况下起到了重要作用，例如黑盒系统和资源受限环境。尽管现有的自适应方法，如ZO-AdaMM，已经显示出潜力，但它们在优化过程中对动量信息的利用不足，通常导致性能不佳的收敛。为克服这些限制，本文提出了改进自适应零阶优化（R-AdaZO）。具体而言，我们首先展示了第一动量估计在ZO梯度估计中的未充分利用的方差减少效果，这提高了ZO更新的准确性和稳定性。然后，我们基于这些方差减少的梯度估计改进了第二动量估计，以便更好地捕捉优化景观的几何结构，从而实现更有效的ZO更新尺度。我们进行了严格的理论分析，表明（I）ZO优化中第一动量估计方差减少的首份分析，（II）改进的第二动量估计，更准确地逼近其无方差的理想状态，（III）适应性ZO方法的第一个方差感知收敛框架，这可能具有独立兴趣，以及（IV）R-AdaZO比现有基准方法（如ZO-AdaMM）更快的收敛速度。我们的大量实验，包括合成问题、黑盒对抗攻击和大语言模型（LLMs）的内存高效微调，进一步验证了R-AdaZO的优越收敛性，表明R-AdaZO为实际世界中的ZO优化挑战提供了一个改进的解决方案。

发布时间: 2/4/2025

查看原文

加密大型模型推理：对称加密 paradigm

作者: James Buban, Hongyang Zhang, Claudio Angione, Harry Yang, Ahmad Farhan, Seyfal Sultanov, Michael Du, Xuran Ma, Zihao Wang, Yue Zhao, Arria Owlia, Fielding Johnston, Patrick Colangelo

arXiv:2502.01013v1 宣告类型：交叉摘要：大规模深度学习模型，如现代语言模型和扩散架构，已在自然语言处理和计算机视觉等应用领域引起革命。然而，这些模型在分布式或去中心化环境中部署时引发了重大隐私问题，因为敏感数据可能在推理过程中被暴露。传统的安全多方计算、同态加密和差分隐私等技术提供了一定的缓解措施，但常常会导致显著的计算开销、延迟惩罚或与非线性网络操作的兼容性限制。在这项工作中，我们引入了等变加密（Equivariant Encryption, EE），这是一种新型的范式，旨在实现近乎零性能开销的加密数据上的安全、“盲”推理。与完全同态方法对整个计算图进行加密不同，EE 选择性地模糊化了神经网络层内的关键内部表示，同时保留了线性和一组指定的非线性操作的精确功能。这种目标加密确保即使在不可信的基础设施上处理，原始输入、中间激活和输出也是保密的。我们详细阐述了 EE 的理论基础，并将其性能和集成复杂性与传统的隐私保留技术进行了比较，还展示了其在从卷积网络到大型语言模型等多种架构中的适用性。此外，我们的工作还提供了全面的威胁分析，概述了潜在的攻击向量和基线策略，并在去中心化环境中将 EE 与标准推理管道进行了基准测试。结果证实，EE 维持了高保真度和吞吐量，有效地弥合了强大数据保密性和现代大规模模型推理的严格效率要求之间的差距。

发布时间: 2/4/2025

查看原文

MergeME：同构和异构MOE模型融合技术

作者: Yuhang Zhou, Giannis Karamanolakis, Victor Soto, Anna Rumshisky, Mayank Kulkarni, Furong Huang, Wei Ai, Jianhua Lu

arXiv:2502.00997v1 类型: cross 摘要：最近在数学推理和编程等领域中专门化的大型语言模型（LLMs）的成功，引发了对将这些专家LLMs合并到统一混合专家（MoE）模型中的方法的兴趣，目标是在增强特定领域性能的同时保持对一般任务的有效性。然而，专家模型的有效合并仍然是一个开放的挑战，特别是在权重参数高度不同或具有不同架构的情况下。当前最先进的MoE合并方法仅适用于同质模型架构，并依赖于简单的无权重平均来合并专家层，这未能解决参数干扰问题，并要求对合并的MoE进行大量微调以恢复性能。为了解决这些局限性，本文介绍了新的MoE合并技术，包括减轻参数干扰的策略、减少对MoE微调需求的路由启发式方法，以及一种用于合并不同架构专家的新方法。在多个领域的广泛实验表明，我们提出的方法的有效性，减少了微调成本，提高了相对于当前最先进的方法的性能，并扩展了MoE合并的应用范围。

发布时间: 2/4/2025

查看原文