arXiv 论文列表

作者: Marine Le Morvan (SODA), Ga\"el Varoquaux (SODA)

arXiv:2407.19804v2 公告类型: 替换摘要：缺失值在各个领域中普遍存在，给训练和部署预测模型带来了挑战。在这种情况下，插补是一种常见做法，其背后的想法是准确的插补能够提升预测效果。然而，最近的理论和实证研究表明，简单的常数插补可能是连贯且具有竞争力的。本实证研究旨在阐明在什么情况下以及在多大程度上投资于先进的插补方法能够显著提高预测效果。通过对19个数据集插补和预测模型的组合进行研究，我们显示了以下几点：i) 使用表达能力强的模型时，插补准确性的影响较小；ii) 当将缺失性指示作为补充输入时，插补准确性的影响较小；iii) 对生成的线性结果而言，插补准确性的影响比对真实数据结果的影响大得多。有趣的是，我们还展示了在MCAR场景下，使用缺失性指示对预测性能是有益的。总的来说，在使用强大模型的真实数据中，提高插补的效果对预测性能的影响较小。因此，在为了提高预测精度而投资于更好的插补方法往往效果有限。

发布时间: 2/21/2025

查看原文

衡量遗忘策略推断强度的技术

作者: Patrick Doherty, Andrzej Szalas

arXiv:2404.02454v4 通知类型：替换摘要：知识表示中的遗忘技术已被证明是一种强大而有用的知识工程工具，具有广泛的应用。然而，关于不同遗忘策略，或使用不同的遗忘操作符如何影响原理论的推理强度的研究非常少。本文的目标是基于模型计数和概率论的直觉定义测量推理强度变化的损失函数。研究了此类损失度量的性质，并提出了一种实用的知识工程工具，用于使用ProbLog计算损失度量。该论文包含了研究和确定不同遗忘策略强度的实用方法，并提供了使用ProbLog应用理论结果的具体示例。尽管重点是遗忘，但结果更为通用，应该在其他领域中有更广泛的应用。

发布时间: 2/21/2025

查看原文

无需动作参数的基于状态轨迹的规划领域模型获取

作者: Tom\'a\v{s} Balyo, Martin Suda, Luk\'a\v{s} Chrpa, Dominik \v{S}afr\'anek, Stephan Gocht, Filip Dvo\v{r}\'ak, Roman Bart\'ak, G. Michael Youngblood

arXiv:2402.10726v3 宣告类型: 替换摘要: 前述从状态轨迹学习的STRIPS领域模型获取方法从要学习的动作的名称和参数开始。因此，它们的任务仅仅是推断给定动作的先件和结果。在本项工作中，我们探讨了当学习的动作参数未提供时的学习情况。我们基于所提供的信息定义了两种轨迹质量级别，并为此每种情况提供了一个算法。在一种级别（L1）中，轨迹中的状态标记有动作名称，因此我们可以推断出动作的数量和名称，但仍需确定参数的数量和类型。在另一种级别（L2）中，状态还标记有构成相应接地动作参数的物体。在此情况下，我们仍需推断学习动作的参数类型。我们在一个大型IPC基准集合上实验性地评估了提出的方法，并将其与最先进的学习工具FAMA进行了比较。评估结果显示，我们新的算法更快，能处理更大的输入，并在学习动作模型方面提供了更好的结果，使其更为接近参考模型。

发布时间: 2/21/2025

查看原文

超越一阶逻辑的提升推理

作者: Sagar Malhotra, Davide Bizzaro, Luciano Serafini

arXiv:2308.11738v4 声明类型: 替换摘要: 加权一阶模型计数 (WFOMC) 是统计关系学习模型中概率推理的基础。由于 WFOMC 在一般情况下是不可计算的（$\#$P完全），因此可以实现多项式时间 WFOMC 的逻辑片段非常重要。这样的片段被称为领域提升的。最近的研究表明，扩展了计数量化器的嵌套一阶逻辑的二变量片段（$\mathrm{C^2}$）是领域提升的。然而，许多现实世界的属性，如引用网络中的无环性和社交网络中的连通性，无法在 $\mathrm{C^2}$ 中或一般的一阶逻辑中建模。在本文中，我们扩展了 $\mathrm{C^2}$ 的领域提升性，引入了多个这样的属性。我们证明，在 $\mathrm{C^2}$ 语句中的一个关系被限制为表示有向无环图、连通图、树（相应地，有向树）或森林（相应地，有向森林）时，$\mathrm{C^2}$ 语句仍是领域提升的。我们所有结果都基于一种新颖且通用的“通过分裂计数”的方法。除了在概率推理中的应用外，我们的结果提供了一种计数组合结构的一般框架。我们在离散数学文献中扩展了关于有向无环图、系统发生学网络等方面的许多先前结果。

发布时间: 2/21/2025

查看原文

使用 Wolfram Alpha 和 Code Interpreter 插件测试 GPT-4 在数学和科学问题上的能力

作者: Ernest Davis, Scott Aaronson

arXiv:2308.05713v4 宣告类型: 替换摘要：本文描述了于2023年6月至8月进行的一项测试，测试对象是配备了Wolfram Alpha和Code Interpreter插件的大语言模型GPT-4，测试题目为105道原创的科学和数学问题，涵盖高中和大学水平。我们的测试表明，这些插件显著增强了GPT解决这些问题的能力。然而，仍经常存在“接口”故障，即GPT往往难以将问题表述为能从插件中获得有用答案的方式。修复这些接口故障似乎是使GPT成为大学级计算问题可靠工具的主要挑战。

发布时间: 2/21/2025

查看原文

概率括号表示法：动态贝叶斯网络中可见和隐藏马尔科夫模型的马尔科夫序列投影机

作者: Xing M. Wang

arXiv:1212.3817v2 宣告类型: 重置摘要：借助概率括号表示法（PBN）的符号框架，我们引入了马尔可夫序列投影器（MSP），扩展了齐次马尔可夫链（HMCs）的演化公式。著名的天气示例，一个可视马尔可夫模型（VMM），说明了VMM的全联合概率对应于扩展演化公式中特定投影的马尔可夫状态序列。在隐马尔可夫模型（HMM）中，隐藏马尔可夫状态序列的概率基（P-基）和观察序列的概率基存在于相继事件空间中。HMM的全联合概率是未知的投影隐藏序列及其转换到观察P-基的乘积。我们应用维贝尔算法到著名的天气-石头HMM示例中，以确定给定观测石头状态序列时最 likely 的天气状态序列。我们的结果使用Elvira软件包进行了验证。利用PBN，我们将可视马尔可夫模型、隐马尔可夫模型及其因子化版本（具有离散时间）的马尔可夫模型的演化公式统一起来。我们简要研究了扩展的HMM，处理了反馈问题，并探讨了连续时间和可视马尔可夫模型、隐马尔可夫模型（具有离散或连续状态）。所有这些模型都是动态贝叶斯网络（DBNs）的子类，在机器学习（ML）和人工智能（AI）中至关重要。

发布时间: 2/21/2025

查看原文

LServe：统一稀疏注意力的高效长序列LLM服务

作者: Shang Yang, Junxian Guo, Haotian Tang, Qinghao Hu, Guangxuan Xiao, Jiaming Tang, Yujun Lin, Zhijian Liu, Yao Lu, Song Han

arXiv:2502.14866v1 宣告类型: cross 摘要：大规模语言模型（LLMs）在处理长序列方面展现了显著的潜力，但在预填充阶段的注意力机制的二次计算复杂性以及解码阶段KV缓存的巨大内存占用使得有效地服务于这些长上下文模型仍然具有挑战性。为了解决这些问题，我们提出了LServe，这是一种通过混合稀疏注意力加速长序列LLM服务的高效系统。该方法将预填充和解码注意力的不同硬件友好型、结构化稀疏模式统一到一个框架中，在处理不重要的token时，逐块跳过计算。LServe展示了静态和动态稀疏模式在长上下文LLM注意力机制中的兼容性。这种设计通过结合这些优化措施实现了乘法加速。具体而言，我们在预填充和解码阶段将一半的注意力头转换为接近免费的流式注意力头。此外，我们发现仅需一个常数数量的KV页面即可保持长上下文能力，与上下文长度无关。我们随后设计了一种分层的KV页面选择策略，根据查询中心的相似性动态剪枝KV页面。平均而言，与vLLM相比，LServe将LLM预填充加速至最高2.9倍，解码加速至1.3到2.1倍，同时保持长上下文的准确性。代码在 https://github.com/mit-han-lab/omniserve 释放。

发布时间: 2/21/2025

查看原文

可解释的文本嵌入与文本相似性解释：一本入门指南

作者: Juri Opitz, Lucas M\"oller, Andrianos Michail, Simon Clematide

arXiv:2502.14862v1 宣布类型: 交叉摘要：文本嵌入和文本嵌入模型是许多AI和NLP系统的基石，尤其在涉及搜索的应用中。然而，可解释性挑战仍然存在，尤其是在解释获得的相似度分数方面，这对于需要透明性的应用至关重要。在这篇文章中，我们提供了一个结构化的综述，专门介绍解释这些相似度分数的可解释性方法，这是一个新兴的研究领域。我们研究了这些方法的个体理念和技术，并评估它们提高文本嵌入的可解释性和解释预测相似度的潜力。

发布时间: 2/21/2025

查看原文

FR-Spec：通过频率排名推测采样加速大词汇量语言模型

作者: Weilin Zhao, Tengyu Pan, Xu Han, Yudi Zhang, Ao Sun, Yuxiang Huang, Kaihuo Zhang, Weilun Zhao, Yuxuan Li, Jianyong Wang, Zhiyuan Liu, Maosong Sun

arXiv:2502.14856v1 宣告类型: cross 摘要: 占测性采样已成为一种重要的技术，通过利用先草后验机制，在每次前向传递中生成多个令牌来加速大型语言模型（LLMs）的自回归生成过程。虽然目前最先进的占测性采样方法仅使用一层和一个语言模型（LM）头作为草稿模型以实现显著的层压缩，但它们在大词汇量LLMs中的效率收益大大降低，例如词汇量为128k个令牌的Llama-3-8B。为了解决这个问题，我们提出了一种基于频率排序的占测性采样框架FR-Spec，该框架通过词汇空间压缩来优化草稿候选者的选取。通过将草稿搜索限制在一个频率优先的令牌子集中，我们的方法将LM头的计算开销减少了75%，同时确保最终输出分布的等价性。跨多个数据集的实验结果显示，与目前最先进的占测性采样方法EAGLE-2相比，平均实现了1.12倍的加速。

发布时间: 2/21/2025

查看原文

揭示并缓解知识编辑中的过度关注问题

作者: Pinzheng Wang, Zecheng Tang, Keyan Zhou, Juntao Li, Qiaoming Zhu, Min Zhang

arXiv:2502.14838v1 交叉公告类型摘要：大型语言模型在广泛的任务中表现出卓越的性能，但仍因训练数据中的错误知识而表现出一些不 desirable 的错误。为避免这种情况，出现了知识编辑方法，这些方法可以通过微量修改少量参数来精确编辑特定的模型知识。然而，这些方法可能会导致特定性失败的问题：当与编辑知识相关的內容出现在上下文中时，可能会无意中破坏其他已有的知识。然而，这些方法可能会导致特定性失败的问题，其中现有的知识和能力由于编辑而严重退化。我们的初步结果显示，特定性失败主要源于模型的注意力头对与编辑知识相关的实体分配了过高的注意力分数，从而不当关注上下文中的特定片段，我们称之为注意力漂移现象。为了缓解这种注意力漂移问题，我们提出了一种简单而有效的方法——选择性注意力漂移限制（SADR），该方法在知识编辑过程中引入了一个额外的正则化项，以限制注意力权重分布的变化，从而防止对编辑实体的不当关注。在五个常用的强大语言模型上的实验表明，我们的方法有效，SADR 可以显著缓解主要的知识编辑任务中的特定性失败。

发布时间: 2/21/2025

查看原文