arXiv 论文列表

具身化红队演练以审计机器人基础模型

作者: Sathwik Karnik, Zhang-Wei Hong, Nishant Abhangi, Yen-Chen Lin, Tsun-Hsuan Wang, Christophe Dupuy, Rahul Gupta, Pulkit Agrawal

arXiv:2411.18676v2 评估类型: 替换交叉摘要：语言条件化的机器人模型有潜力使机器人能够根据自然语言指令执行广泛的任务。然而，评估它们的安全性和有效性仍然具有挑战性，因为难以测试一个任务可以用所有不同的方式来表述。当前的基准存在两个关键局限性：它们依赖于少量的人类生成的指令，忽略了众多的挑战性案例，并且仅关注任务性能而不评估安全性，比如避免造成损坏。为了解决这些缺口，我们引入了实体化红队测试（ERT），这是一种新的评估方法，能够生成多样且具有挑战性的指令来测试这些模型。ERT 使用自动化红队测试技术与视觉语言模型（VLMs）来创建上下文相关的困难指令。实验结果表明，最先进的语言条件化的机器人模型在ERT生成的指令下失败或表现出不安全的行为，突显了当前基准在评估实际性能和安全性方面的不足。代码和视频可以在以下网址获取：https://s-karnik.github.io/embodied-red-team-project-page。

发布时间: 2/11/2025

查看原文

GrokFormer: 图傅里叶柯尔莫哥洛夫-阿诺尔德变换器

作者: Guoguo Ai, Guansong Pang, Hezhe Qiao, Yuan Gao, Hui Yan

arXiv:2411.17296v2 通知类型: 替换-交叉摘要：图变换器（GTs）在图表示学习方面已经展现出超过流行图神经网络（GNNs）的出色性能。然而，作为GTs的核心模块，自我注意力仅保留图特征中的低频信号，这导致无法捕捉其他重要的信号，如高频信号。一些最新的GT模型有助于缓解这一问题，但它们的学习灵活性和表达能力仍然有限，因为它们学到的滤波器在预定义的图频谱或顺序上是固定的。为了应对这一挑战，我们提出了一种图傅里叶柯尔莫哥罗夫-阿诺尔德变换器（GrokFormer），这是一种新颖的GT模型，通过傅里叶级数模型来学习具有自适应图频谱和顺序的高表达性谱滤波器，该模型使用可学习的激活函数。我们从理论上和实验上证明，提出的GrokFormer滤波器的表达能力优于其他谱方法。在来自不同领域、不同规模和图特性的10个真实节点分类数据集以及5个图分类数据集上的全面实验中，GrokFormer表现出色，超越了现有的最先进GTs和GNNs。我们的代码可在 https://github.com/GGA23/GrokFormer 获取。

发布时间: 2/11/2025

查看原文

自我生成的批评增强语言模型的奖励建模

作者: Yue Yu, Zhengxing Chen, Aston Zhang, Liang Tan, Chenguang Zhu, Richard Yuanzhe Pang, Yundi Qian, Xuewei Wang, Suchin Gururangan, Chao Zhang, Melanie Kambadur, Dhruv Mahajan, Rui Hou

arXiv:2411.16646v3 宣告类型: 替换-交叉摘要：奖励建模对于对齐大型语言模型（LLMs）与人类偏好至关重要，特别是在基于人类反馈的强化学习（RLHF）中。然而，当前的奖励模型主要生成标量分数，并且难以将自然语言格式的批评意见纳入其中。我们假设同时预测批评意见和标量奖励会提高奖励建模的能力。受此启发，我们提出了Critic-RM框架，该框架通过自我生成的批评意见改进奖励模型，而不需要额外的监督。Critic-RM采用两阶段过程：首先生成和筛选高质量的批评意见，然后联合微调奖励预测和批评意见生成。在多个基准测试中，Critic-RM将奖励建模准确性提高了3.7%-7.3%，相比标准奖励模型和LLM评审员，显示出强大的性能和数据效率。此外的研究进一步验证了生成的批评意见在纠正错误推理步骤方面的有效性，提高了2.5%-3.2%的推理准确性改进率。

发布时间: 2/11/2025

查看原文

LLaSA: 大型语言和结构化数据助手

作者: Yao Xu, Shizhu He, Jiabei Chen, Zeng Xiangrong, Bingning Wang, Guang Liu, Jun Zhao, Kang Liu

arXiv:2411.14460v2 宣告类型: 替换交叉摘要：结构化数据，如表格、图和数据库，在诸如问答和对话系统等众多自然语言处理任务中发挥着关键作用。最近，在受到视觉-语言模型的启发下，图中立网络（GNNs）作为额外的输入模态被引入到大型语言模型（LLMs）中，以提高它们在结构化知识定位（SKG）任务上的性能。然而，这些增强GNN的LLMs存在以下局限性：（1）它们使用多样化的GNN来建模不同类型的结构化数据，使其无法统一处理各种形式的结构化数据。（2）GNN的预训练与特定的LLMs耦合，这妨碍了GNN完全与文本空间对齐，并限制了其对其他LLMs的适应性。为解决这些问题，我们提出了一种名为**大规模语言和结构化数据助手**（LLaSA）的一般框架，旨在增强LLMs处理结构化数据的能力。具体而言，我们以统一的超图格式表示各种类型的结构化数据，并采用自监督学习预训练一个超图编码器，通过交叉注意力压缩编码的超图表示，并在LLMs的训练和推理阶段将压缩的超图表示附加到串行化输入中。在多个SKG任务上的实验结果表明，我们的预训练超图编码器可以适应各种LLMs，并增强它们处理不同类型的结构化数据的能力。此外，与全参数调优的前SOTA方法相比，使用LoRA微调的LLaSA表现出更好的性能。

发布时间: 2/11/2025

查看原文

我知道这个实体吗？语言模型中的知识意识与幻觉问题

作者: Javier Ferrando, Oscar Obeso, Senthooran Rajamanoharan, Neel Nanda

arXiv:2411.14257v2 声明类型：替换交叉摘要：大型语言模型中的幻觉是一个普遍存在的问题，然而，模型是否会幻觉的机制尚不明确，限制了我们解决这一问题的能力。通过使用稀疏自编码器作为可解释性工具，我们发现这些机制中的关键部分是实体识别，模型会检测其能否回忆相关事实的实体。稀疏自编码器揭示了表示空间中的有意义方向，这些方向可以检测模型是否识别了一个实体，例如，检测模型是否不知道某个运动员或电影。这表明模型可以拥有自我认知：关于其自身能力的内部表示。这些方向是因果相关的：能够引导模型拒绝回答关于已知实体的问题，或者在本应拒绝回答的情况下，对未知实体的属性进行幻觉。尽管稀疏自编码器是基于基模型训练的，但这些方向对聊天模型的拒绝行为有因果影响，这表明对话微调已经重新利用了这种现有机制。此外，我们初步探讨了这些方向在模型中的机制作用，发现它们破坏了通常将实体属性移动到最终标记的下游头部的注意力。

发布时间: 2/11/2025

查看原文

可解释的基于LLM的多维度蒸馏在电子商务相关性学习中的应用

作者: Gang Zhao, Ximing Zhang, Chenji Lu, Hui Zhao, Tianshu Wu, Pengjie Wang, Jian Xu, Bo Zheng

arXiv:2411.13045v2 通知类型: 替换-交叉摘要：有效的查询-项目相关性建模对于增强电子商务搜索系统的用户体验和保障用户满意度至关重要。近年来，得益于庞大的内在知识，大型语言模型（LLM）方法在性能和长尾泛化能力方面比之前的针对相关性的神经方法表现出色。尽管如此，在实践中，当前的基于LLM的方法仍然存在以下不足：首先，大量参数和计算需求使得其难以在线部署。其次，将LLM模型缩减为在线模型是可行的方向，但LLM的相关性建模是一个黑箱模型，其丰富的内在知识难以提取和在线应用。为提高LLM的可解释性和通过LLM增强在线相关性模型的性能，我们提出了一个解释性LLM驱动的多维度知识蒸馏框架，用于电子商务的相关性学习，该框架包含两个核心组件：（1）一个用于相关性建模的解释性LLM（ELLM-rele），它将相关性学习分解为中间步骤，并将相关性学习建模为一种链式思维（CoT）推理，从而提高LLM的可解释性与性能。（2）一个多维度知识蒸馏（MKD）架构，其从相关性评分分布和CoT推理两个方面，将ELLM-rele的知识转移到当前可部署的交互式和表示式学生模型中。通过蒸馏概率和CoT推理知识，MKD提高了学生模型的语义交互能力和长尾泛化能力。在淘宝搜索广告场景中进行的大量离线评估和在线实验表明，我们提出的框架显著增强了电子商务相关性学习的性能和用户体验。

发布时间: 2/11/2025

查看原文

变压器神经过程 - 核回归

作者: Daniel Jenson, Jhonathan Navott, Mengyan Zhang, Makkunda Sharma, Elizaveta Semenova, Seth Flaxman

arXiv:2411.12502v2 公告类型: replace-cross 摘要：神经过程（NPs）是一类快速发展的模型，旨在直接建模随机过程的后验预测分布。最初作为拟合受限于 $\mathcal{O}(n^3)$ 运行时间复杂度的高斯过程（GPs）的可扩展替代方案而开发，最现代的最准确的 NPs 经常能够与 GPs 挤身并列，但仍因注意力机制的原因遭受 $\mathcal{O}(n^2)$ 的瓶颈。我们介绍了 Transformer 神经过程 - 核回归（TNP-KR），这是一种可扩展的 NP，具有以下特点：（1）核回归块（KRBlock），一个简单、可扩展且参数高效的 transformer 块，其复杂度为 $\mathcal{O}(n_c^2 + n_c n_t)$，其中 $n_c$ 和 $n_t$ 分别是上下文点数和测试点数；（2）核基注意力偏置；以及（3）两种新的注意力机制：扫描注意力（SA），一种基于扫描的、内存高效的注意力机制，当与核基偏置结合使用时，可以使 TNP-KR 具有平移不变性，以及深核注意力（DKA），一种类似于 Performer 风格的注意力机制，隐式地包含了一个距离偏置并进一步将复杂度降低到 $\mathcal{O}(n_c)$。这些增强功能使得 TNP-KR 的两种变体能够在单一 24GB GPU 上以不到一分钟的时间对超过 100 万个上下文点进行近 1 百万测试点的推断。在涵盖元回归、贝叶斯优化、图像补全和流行病学的基准测试中，配备 DKA 的 TNP-KR 在几乎所有基准测试中均优于其 Performer 对手，而配备 SA 的 TNP-KR 达到了最先进的成果。

发布时间: 2/11/2025

查看原文

SageAttention2：高效的注意力机制，配有 thorough 的异常值平滑和线程级 INT4 量化

作者: Jintao Zhang, Haofeng Huang, Pengle Zhang, Jia Wei, Jun Zhu, Jianfei Chen

arXiv:2411.10958v4 宣告类型: replace-cross 摘要：尽管量化已经广泛应用于线性层，但其在加速注意力过程中的应用仍然有限。为了在不牺牲精度的前提下进一步提高注意力计算的效率，同时比SageAttention更快，我们提出了SageAttention2，它利用了显著更快的4位矩阵乘法（Matmul）以及额外的精度增强技术。首先，我们提出将矩阵$(Q, K)$按硬件友好的线程级粒度量化为INT4，将矩阵$(\widetilde{P}, V)$量化为FP8。其次，我们提出了一种平滑$Q$的方法，以增强INT4 $QK^\top$的准确性。第三，我们提出了$\widetilde{P}V$的两级累加策略，以增强FP8 $\widetilde{P}V$的准确性。SageAttention2在RTX4090上的每秒操作数（OPS）分别超过FlashAttention2和xformers约3倍和4.5倍。此外，SageAttention2在Hopper GPU上的速度与FlashAttention3(fp8)相当，但在准确性方面要高得多。全面的实验表明，我们的方法在不同模型中（包括语言、图像和视频生成模型）引起的端到端指标损失可以忽略不计。我们的代码可在 https://github.com/thu-ml/SageAttention 获取。

发布时间: 2/11/2025

查看原文

LogLLM：基于日志的大语言模型异常检测

作者: Wei Guan, Jian Cao, Shiyou Qian, Jianqi Gao, Chun Ouyang

arXiv:2411.08561v4 宣布类型: replace-cross 摘要：软件系统通常会在日志中记录重要的运行时信息，以帮助进行故障排除。基于日志的异常检测已成为一个关键的研究领域，旨在通过日志数据识别系统问题，最终提高软件系统的可靠性。传统的深度学习方法通常难以捕捉嵌入在日志数据中的语义信息，这些数据通常以自然语言组织。在本文中，我们提出了一种基于日志的异常检测框架LogLLM，该框架利用了大型语言模型（LLMs）。LogLLM 使用 BERT 从日志消息中提取语义向量，同时利用基于变压器解码器的 Llama 模型对日志序列进行分类。此外，我们引入了一种投影器以对齐 BERT 和 Llama 的向量表示空间，确保对日志语义的理解一致。与传统方法需要日志解析器提取模板不同，LogLLM 通过正则表达式预处理日志消息，简化了整个过程。我们的框架通过一种新颖的三阶段训练程序进行训练，旨在提高性能和适应性。在四个公开数据集上的实验结果表明，LogLLM 超过了最先进的方法。即使处理不稳定日志，它也能准确捕获日志消息的语义意义并检测异常。

发布时间: 2/11/2025

查看原文

FlowTS：通过修正流进行的时间序列生成

作者: Yang Hu, Xiao Wang, Zezhen Ding, Lirong Wu, Huatian Zhang, Stan Z. Li, Sheng Wang, Jiheng Zhang, Ziyun Li, Tianlong Chen

arXiv:2411.07506v3 宣告类型: replace-cross 摘要：基于扩散的模型在时间序列生成方面取得了显著的成果，但面临计算效率低下的问题：通过迭代数值求解器解决高维ODEs/SDEs涉及每个样本需要数百到数千次漂移函数评估，导致成本极其高昂。为了解决这一问题，我们提出了一种基于ODE的模型FlowTS，它利用概率空间中的校正流和直线传输。通过学习分布之间的测地路径，FlowTS 通过精确的线性轨迹模拟实现计算效率，从而加快训练和生成速度，并提高性能。我们进一步引入了一种受探索与利用权衡启发的自适应采样策略，平衡了噪声适应性和精度。值得注意的是，FlowTS 使得从不确定生成到条件生成的无缝转换无需重新训练，确保了高效的实际部署。此外，为了增强生成的真实性，FlowTS 集成了趋势与季节性分解、注意注册（用于全局上下文聚合）以及旋转位置嵌入（RoPE，用于位置信息）。在不确定情况下，广泛的实验表明，FlowTS 在 Stock 和 ETTh 数据集上达到了最先进的性能，Context FID 分数分别为 0.019 和 0.011（此前最佳：0.067，0.061）。在有条件情况下，我们在太阳发电预测（MSE 213，此前最佳：375）和 MuJoCo 补充任务（MSE 7e-5，此前最佳：2.7e-4）中实现了卓越的性能。代码可在 https://github.com/UNITES-Lab/FlowTS 获取。

发布时间: 2/11/2025

查看原文