arXiv 论文列表

作者: C\'edric Join, Emmanuel Delaleau, Michel Fliess

arXiv:2502.00443v1 控制类型: 横向摘要：模型预测控制（MPC）是一种流行的控制工程实践，但需要对模型有扎实的了解。今天，一种备受关注的无模型预测控制（MFPC），也与人工智能中的强化学习（RL）相关，通过一种常系数的线性微分方程重新进行了表述，这种表述得益于最优控制的新视角以及无模型控制领域近期的进展。MFPC正在取代动态规划、哈密顿-雅可比-贝尔曼方程和庞特里亚金极值原理。计算负担较低，实现较为直接。通过两个非线性示例，一个化学反应器和一个两罐系统，展示了我们的方法。与HEOL设置（其中需要对过程模型有一定的专业知识）的比较表明，后者仅有微小的优势。通过复杂ANN架构对两罐系统的最近识别，可能表明在控制乃至更广泛的AI领域，完整的建模及其对应的机器学习机制未必总是必要的。

发布时间: 2/4/2025

查看原文

超出CNF的编译与快速模型计数

作者: Alexis de Colnet, Stefan Szeider, Tianwei Zhang

arXiv:2502.00434v1 类型: cross 摘要: 确定性可分解否定范式 (d-DNNF) 电路是布尔函数的表示，能够实现线性时间模型计数。本文加强了我们对哪些类别的函数可以被有效地转换或编译为 d-DNNF 的理论知识。我们的主要贡献是在 incidence treewidth 参数化的情况下，对特定约束的合取进行固定参数可处理 (FPT) 编译。这涵盖了已知的 CNF 结果。所涉及的约束是所有变量排列下都可以由恒定宽度的有序二元决策图 (OBDD) 表示的所有函数。例如，这包括模算术约束和具有恒定阈值的基数约束。FPT 编译的运行时间在 incidence treewidth 上呈单变量指数增长，但指数中的常数很大。为了平衡这一点，我们提供了一种更高效的 FPT 模型计数算法，适用于约束的子类别，并不需要编译。

发布时间: 2/4/2025

查看原文

MQuant：通过全程静态量化释放多模态大型语言模型的推理潜力

作者: JiangYong Yu, Sifan Zhou, Dawei Yang, Shuo Wang, Shuoyu Li, Xing Hu, Chen Xu, Zukang Xu, Changyong Shu, Zhihang Yuan

arXiv:2502.00425v1 公告类型: cross 摘要: 多模态大规模语言模型（MLLMs）因其能够理解多模态输入而引起了广泛关注。然而，它们庞大的参数量和巨大的计算需求严重阻碍了其实用部署和应用。虽然量化是减少模型大小和推理延迟的有效方法，但其在MLLMs中的应用仍然较少探索。在本文中，我们提出了MQuant，这是一种后训练量化（PTQ）框架，旨在解决多模态大规模语言模型（MLLMs）的独特挑战。传统的量化方法通常难以处理MLLMs，因为存在以下问题：(a) 大量视觉标记引起的高推理延迟，(b) 视觉标记和文本标记之间的分布差异，以及 (c) Hadamard变换引入的极端离群值。为了解决这些问题，MQuant引入了以下方法：模态特定静态量化（MSQ），为视觉标记和文本标记分配不同的静态缩放值；注意力不变灵活切换（AIFS），重新排序标记以保留因果注意力的同时消除昂贵的标记级缩放计算；旋转幅度抑制（RMS），减轻在线 Hadamard 旋转引起的权重离群值。在五种主流MLLMs（包括Qwen-VL、MiniCPM-V、CogVLM2）上，MQuant在W4A8条件下实现了接近浮点精度（<1%的退化）的同时，将推理延迟降低了高达30%，显著优于现有PTQ基线。我们的MQuant有效地解决了资源受限设备中高效准确的MLLMs推理之间的鸿沟。代码将开源。

发布时间: 2/4/2025

查看原文

MarketSenseAI 2.0: 通过语言模型代理提升股票分析

作者: George Fatouros, Kostas Metaxas, John Soldatos, Manos Karathanassis

arXiv:2502.00415v1 通知类型: 交叉摘要:MarketSenseAI 是一种新颖的整体股票分析框架，利用大型语言模型 (LLMs) 处理财务新闻、历史价格、公司基本面和宏观经济环境，以支持股票分析和选择中的决策。在这篇论文中，我们介绍了MarketSenseAI 的最新进展，这些进展得益于 LLM 技术的迅速扩展。通过结合检索增强生成和 LLM 代理的新型架构，该框架处理 SEC 申报文件和收益电话会议，并通过系统地处理各种机构报告来丰富宏观经济分析。我们展示了与之前版本相比，在基础分析准确性方面取得了显著改进。关于道琼斯工业指数成分股为期两年（2023-2024）的实证评估表明，MarketSenseAI 较之指数收益73.5%实现了累计回报率为125.9%，同时保持相当的风险特征。进一步验证 S&P 500 股票在2024年的数据表明，该框架具有可扩展性，其夏普比率比市场高出33.8%。这项工作标志着将 LLM 技术应用于金融分析领域的重要进展，提供了 LLM 驱动的投资策略稳健性的见解。

发布时间: 2/4/2025

查看原文

基于语义嵌入原则的因果抽象学习

作者: Gabriele D'Acunto, Fabio Massimo Zennaro, Yorgos Felekis, Paolo Di Lorenzo

arXiv:2502.00407v1 类型:交叉摘要：结构因果模型（SCMs）使我们能够在多个分辨率级别上研究复杂系统。因果抽象（CA）框架正式化了高分辨率和低分辨率SCMs之间的映射。我们在此框架中处理了一个具有挑战性和现实性的CA学习问题，在该问题中SCMs是不可访问的，干预数据是不可用的，样本数据是不对齐的。我们框架的关键原则是“语义嵌入”，该原则形式化为高分辨率分布位于低分辨率分布的子空间上。这一原则自然地将线性CA与Stiefel流形的几何形状联系起来。我们提出了一种范畴论方法来处理SCMs，该方法通过找到低分辨率和高分辨率概率测度之间的同态，遵守语义嵌入原则，从而使得我们能够提出一个通用的CA学习问题。作为应用，我们通过考虑高斯测度和Kullback-Leibler散度作为目标，解决了线性CA的问题。由于学习任务的非凸性，我们基于现有的黎曼优化范式开发了三种算法。我们证明了所提出的方法在不同程度的CA结构先验信息下，对于合成数据和真实的脑部数据都取得了成功。

发布时间: 2/4/2025

查看原文

谱-黎曼图形神经网络

作者: Karish Grover, Haiyang Yu, Xiang Song, Qi Zhu, Han Xie, Vassilis N. Ioannidis, Christos Faloutsos

arXiv:2502.00401v1 宣告类型: cross 摘要: 将谱信号和曲率信号结合起来是否能解锁图表示学习中的新潜力？非欧几里得几何，特别是黎曼流形（如双曲几何，负曲率；球面几何，正曲率），为嵌入无标度、层次和循环模式等复杂图结构提供了强大的归纳偏置。同时，谱过滤在处理图上的信号变化方面表现出色，使其在同质和异质设置中都非常有效。结合这两者可以显著提高学习到的表示。为了解决这一问题，我们提出了Spectro-Riemannian图神经网络（CUSP）——第一个统一曲率（几何）和谱图信号洞见的图表示学习范式。CUSP是一种混合曲率谱GNN，通过在常曲率流形（双曲、球面和欧几里得）的乘积中学习谱滤波器来优化节点嵌入。具体来说，CUSP引入了三个新的组件：（a）Cusp Laplacian，基于Ollivier-Ricci曲率的传统图拉普拉斯矩阵的扩展，旨在更好地捕捉曲率信号；（b）Cusp Filtering，采用多个黎曼图滤波器从特征谱的各个频段中获得线索；以及（c）Cusp Pooling，一种结合基于曲率的空间编码的分层注意力机制，用于评估我们图中不同曲率子结构的相对重要性。在八个同质和异质数据集上的实证评估表明，CUSP在节点分类和链接预测任务中优于现有最先进的模型，性能提升高达5.3%。

发布时间: 2/4/2025

查看原文

基于人设的政治视角对仇恨内容检测的影响

作者: Stefano Civelli, Pietro Bernardelle, Gianluca Demartini

arXiv:2502.00385v1 Announce Type: cross 摘要：虽然使用政治多样化内容预训练语言模型已被证明可以提高下游任务的公平性，但这样的方法往往需要大量的计算资源，而许多研究者和组织无法获取这些资源。最近的研究显示，基于人设的提示可以引入模型输出的政治多样化，而无需额外的训练。然而，尚不清楚这样的提示策略是否能够在下游任务中达到与政治预训练相当的效果。我们通过在多模态仇恨言论检测任务中使用基于人设的提示策略来探讨这个问题，特别是关注在 meme 中的仇恨言论。我们的分析结果显示，在将人设映射到政治罗盘和测量人设一致性的过程中，固有的政治定位与分类决策之间出乎意料地缺乏关联。值得注意的是，即使明确注入了更强的意识形态描述，这一缺乏关联的现象仍然存在。我们的研究发现表明，虽然语言大模型在回答直接政治问题时可能会表现出政治偏见，但这些偏见对实际分类任务的影响可能不像预期的那样显著。这提出了一个重要问题，即计算成本高昂的政治预训练是否对于在下游任务中实现公平性能是必需的。

发布时间: 2/4/2025

查看原文

掩码生成嵌套变换器，带解码时缩放

作者: Sahil Goyal, Debapriya Tula, Gagan Jain, Pradeep Shenoy, Prateek Jain, Sujoy Paul

arXiv:2502.00382v1 宣告类型: cross 摘要: 近期视觉生成领域的进步在生成高质量内容方面取得了显著进展。然而，大多数方法都面临一个根本性问题——推理计算效率的瓶颈。这些算法往往需要多次遍历transformer模型以生成令牌或去噪输入。然而，在所有迭代过程中，模型大小保持一致，这使得计算成本高昂。在本项工作中，我们主要通过两个关键构想来解决这一问题——(a) 生成过程中的所有部分都需要相等的计算量并不必要，我们设计了一种解码时间模型扩展计划，以有效利用计算资源；(b) 我们可以缓存并重用一些计算。结合这两个构想，我们能够在使用较小模型处理更多令牌的同时，让大型模型处理较少的令牌。这些不同规模的模型并未增加参数量，因为它们共享参数。我们通过在ImageNet256×256、UCF101和Kinetics600上进行严格的实验，展示了所提方法在图像/视频生成和帧预测方面的有效性。我们的实验表明，与基线方法相比，我们的模型在几乎少3倍的计算成本下获得了具有竞争力的性能。

发布时间: 2/4/2025

查看原文

在存在干扰物的情况下，潜在动作学习需要监督

作者: Alexander Nikulin, Ilya Zisman, Denis Tarasov, Nikita Lyubaykin, Andrei Polubarov, Igor Kiselev, Vladislav Kurenkov

arXiv:2502.00379v1 交叉型公告摘要：最近，由潜在动作政策（LAPO）开创的潜在动作学习显示出在仅凭观察数据预训练方面的卓越效率，这为利用网络上大量可用的视频资源进行具身人工智能提供了潜在可能。然而，先前的工作主要集中在无干扰的数据上，在这种数据中，观察之间的变化主要由真实动作来解释。不幸的是，现实世界的视频包含与动作相关的干扰，这可能阻碍潜在动作学习。使用干扰控制套件（DCS），我们实证研究了干扰对潜在动作学习的影响，并证明了LAPO在这种场景中表现不佳。我们提出了LAOM，这是一种简单的LAPO改进版本，通过线性探测测量，其潜在动作的质量提高了8倍。重要的是，我们展示了，在仅2.5%的数据集内提供真实动作的监督信息，可以在潜在动作学习过程中提高下游性能4.2倍。我们的研究结果表明，在存在干扰的情况下，将监督引入潜在动作模型（LAM）的训练中是至关重要的，这挑战了传统的先学习LAM，然后再从潜在到真实动作进行解码的管道。

发布时间: 2/4/2025

查看原文

当端到端模型过于复杂时：重新思考级联语音到文本翻译

作者: Anna Min, Chenxu Hu, Yi Ren, Hang Zhao

arXiv:2502.00377v1 交叉类型: 模型摘要：尽管端到端的语音到文本翻译取得了巨大成功，但我们认为级联的语音到文本翻译模型仍有其存在的必要性，这种模型通常因其自动语音识别(ASR)和机器翻译(MT)模型之间的错误传播而受到批评。在本文中，我们探讨了将多个ASR候选和自我监督的语音特征纳入MT中的益处。我们的分析表明，级联错误的主要原因来自于将语音域中的相似样本映射到文本域后其间的增强偏离。通过包括多个候选和自我监督的语音特征，我们的方法允许机器翻译模型选择正确的单词，并使用各种语音样本确保精确的翻译。该策略最小化了错误传播，并充分利用了大型ASR和MT数据集以及预训练的ASR/MT模型，同时解决了相关问题。

发布时间: 2/4/2025

查看原文