arXiv 论文列表

作者: Stephen N. Freund, Brooke Simon, Emery D. Berger, Eunice Jun

arXiv:2504.14038v1 类型: cross 摘要: 进行数据分析通常涉及编写代码以转换、可视化、分析和解释数据。如今，大型语言模型（LLMs）能够为简单的常规分析生成此类代码。LLMs有望通过使那些缺乏编程经验的人能够进行数据分析，从而民主化数据分析，包括在科学研究、商业和政策制定中。然而，在许多实际环境中，分析师往往需要对特定分析步骤进行精细控制，明确验证中间结果，并迭代改进他们的分析方法。这些任务构成了单独使用LLMs或与现有编写工具（例如计算笔记本）结合使用时构建稳健且可重复的分析的障碍。本文介绍了一种新的混合启动系统Flowco以应对这些挑战。Flowco利用了视觉数据流编程模型，并将LLMs集成到编写过程的每一阶段。一项用户研究表明，Flowco能够支持分析师，特别是那些编程经验较少的分析师，快速编写、调试和改进数据分析。

发布时间: 4/22/2025

查看原文

LoftUp：学习一种基于坐标的功能上采样器以增强视觉基础模型

作者: Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang

arXiv:2504.14032v1 跨领域公告类型：交叉摘要：视觉基础模型（VFMs）如DINOv2和CLIP在各种下游任务中取得了令人印象深刻的结果，但它们有限的特征分辨率妨碍了在需要像素级理解的应用中的性能。特征上采样为解决这一挑战提供了有希望的方向。在本文中，我们确定了增强特征上采样的两个关键因素：上采样器架构和训练目标。对于上采样器架构，我们引入了一种基于坐标的空间交叉注意变换器，将高分辨率图像与坐标和低分辨率VFMs特征结合起来，生成锐利、高质量的特征。对于训练目标，我们提出了一种利用类无关掩模和自我蒸馏构建高分辨率伪地面真值特征的方法。我们的方法有效地捕捉到了细粒度的细节，并且能够灵活适应各种输入和特征分辨率。通过实验，我们证明了我们的方法在各种下游任务中显著优于现有的特征上采样技术。我们的代码发布在https://github.com/andrehuang/loftup。

发布时间: 4/22/2025

查看原文

因果组件：逐个分析和改进_spike_神经网络

作者: Dominik Dold, Philipp Christian Petersen

arXiv:2504.14015v1 Announce Type: 多领域交叉摘要：我们引入了一个用于突触神经网络（SNNs）的新概念，该概念源自用于分析人工神经网络（ANNs）的表达能力和训练可及性的“线性片段”的想法。我们证明了SNNs的输入域可以分解为不同的因果区域，在这些区域内，输出脉冲时间相对于输入脉冲时间和网络参数呈现出局部Lipschitz连续性。这些区域的数量——我们称之为“因果片段”——是SNNs逼近能力的度量。特别地，我们在模拟中表明，那些在训练集上产生大量因果片段的参数初始化与SNN训练成功之间存在强烈的相关性。此外，我们发现具有纯正权重的前馈SNNs表现出惊人的大量因果片段，这使它们能够在基准任务中实现竞争性的性能水平。我们认为，因果片段不仅是一个强大且基于原理的工具来改进SNNs，而且可能会为将来比较SNNs和ANNs开辟新的途径。

发布时间: 4/22/2025

查看原文

Fashion-RAG：检索增强生成的多模态时尚图像编辑

作者: Fulvio Sanguigni, Davide Morelli, Marcella Cornia, Rita Cucchiara

arXiv:2504.14011v1 交叉发布类型: cross 摘要：近年来，随着电商平台和虚拟应用的广泛使用，时尚行业越来越多地采用人工智能技术以增强客户体验。在各种任务中，虚拟试穿和多模态时尚图像编辑——这种编辑利用了诸如文本、服装草图和身体姿态等多种输入模态——已经成为研究的重点领域。扩散模型已成为此类生成任务的主要方法，能够提供高质量和多样性的图像。然而，现有大多数虚拟试穿方法都依赖于特定的服装输入，这在实际应用中往往不切实际，因为用户可能只提供文本说明。为了解决这一限制，本文提出了一种名为Fashion Retrieval-Augmented Generation (Fashion-RAG) 的新方法，该方法可以根据文本形式提供的用户偏好定制时尚物品。我们的方法检索多个符合输入说明的服装，并通过整合检索到的物品的属性生成个性化图像。为此，我们采用了文本反转技术，在这种技术中，检索到的服装图像被投影到 Stable Diffusion 文本编码器的文本嵌入空间中，使得检索到的元素能够无缝地整合到生成过程中。在 Dress Code 数据集上的实验结果表明，Fashion-RAG 在定性和定量上都优于现有的方法，有效地捕捉到了检索到的服装的细节。据我们所知，这是首次提出一种专门针对多模态时尚图像编辑的检索增强生成方法。

发布时间: 4/22/2025

查看原文

CPR: 利用大语言模型进行主题和短语建议以促进全面产品评价

作者: Ekta Gujral, Apurva Sinha, Lishi Ji, Bijayani Sanghamitra Mishra

arXiv:2504.13993v1 类别: cross 摘要: 消费者通常 heavily 依赖在线产品评论，通过分析定量评分和文本描述来评估产品质量。然而，现有的研究并未充分解决如何系统地鼓励撰写全面的评论，这些评论能够捕捉客户的情感和详细的產品功能分析。本文介绍了一种名为 CPR 的新颖方法，该方法利用大规模语言模型 (LLMs) 和主题建模的力量来引导用户撰写有见地且全面的评论。我们的方法采用三阶段过程：首先，我们向用户展示针对特定产品的评分词；其次，我们根据这些评分生成有针对性的短语建议；最后，我们通过主题建模整合用户撰写的文本，确保涵盖所有关键方面。我们使用文本到文本的 LLM 评估了 CPR，将其性能与来自沃尔玛的真实世界客户评论进行了比较。我们的结果表明，CPR 能够有效识别相关的产品术语，即使对于缺乏先前评论的新产品也是如此，并提供情感对齐的短语建议，为用户节省时间并提高评论质量。定量分析显示，CPR 在 BLEU 分数上比基线方法有 12.3% 的改进，进一步得到生成短语的手动评估的支持。最后，我们讨论了潜在的扩展和未来的研究方向。

发布时间: 4/22/2025

查看原文

PC-DeepNet：使用置换不变深度神经网络的GNSS定位误差最小化框架

作者: M. Humayun Kabir, Md. Ali Hasan, Md. Shafiqul Islam, Kyeongjun Ko, Wonjae Shin

arXiv:2504.13990v1 宣布类型: cross 摘要：在城市和郊区区域，全球导航卫星系统（GNSS）面临着显著的挑战，这是因为非视线传播（NLOS）、多路径效应以及接收到的信号功率较低，导致了高度非线性和非高斯测量误差分布。鉴于此，依赖高斯误差近似的传统基于模型的定位方法在这些条件下难以实现精确的定位。为克服这些挑战，我们提出了一种新型的学习导向框架PC-DeepNet，该框架采用一个不变置换（PI）深度神经网络（DNN）来估计位置修正（PC）。该方法旨在确保对可见卫星测量数量和/或顺序变化的鲁棒性，这是GNSS系统中常见的问题，同时利用NLOS和多路径指标作为特征，以增强在挑战性城市和郊区环境中的定位精度。为了验证所提出框架的性能，我们使用两个公开可用的数据集将定位误差与最先进的基于模型和基于学习的定位方法进行了比较。结果表明，所提出的PC-DeepNet在性能上优于现有基于模型和基于学习的方法，并且与之前的基于学习的方法相比，其计算复杂度较低。

发布时间: 4/22/2025

查看原文

渐进二分搜索与维度扩展：大规模语言模型中激活量化的通用方法

作者: Lucas Maisonnave, Cyril Moineau, Olivier Bichler, Fabrice Rastello

arXiv:2504.13989v1 宣告类型: cross 摘要: 大型语言模型（LLMs）已成为人工智能的关键组成部分，展示了强大的推理、理解和生成数据的能力。然而，它们在边缘设备上的部署受限于其庞大的规模，通常达到数十亿个参数。量化是一种广泛使用的方法，用于减少内存使用和推理时间，然而LLMs由于其激活值中普遍存在的异常值而呈现独特的挑战。在本文中，我们利用Hadamard矩阵在理论上优于随机旋转矩阵的优势，推动了LLMs中量化边界的拓展。我们证明Hadamard矩阵在减少异常值方面更为有效，异常值是实现低比特量化的主要障碍。基于逐步二分搜索的方法使我们能够实现权重、激活值和键值缓冲（KV）的3比特量化，在常见基准上的准确率比最先进的方法提高了40%。我们通过使用Paley算法将旋转矩阵的使用扩展到支持非2的幂嵌入维度，类似于Qwen架构。我们从理论上证明了Hadamard矩阵在减少异常值方面的优越性。我们实现了权重、激活值和KV缓存的3比特量化，显著增强了模型性能。在Mistral、LLaMA和Qwen等多种模型系列上的实验结果证明了我们方法的有效性，优于现有方法，并实现了实际的3比特量化。

发布时间: 4/22/2025

查看原文

熵校正指导用于扩散和流模型

作者: Tariq Berrada Ifriqi, Adriana Romero-Soriano, Michal Drozdzal, Jakob Verbeek, Karteek Alahari

arXiv:2504.13987v1 投稿类型: cross 摘要: 指导技术常被用于改进扩散和流模型中条件生成任务（如类别条件生成和文本到图像生成）的图像质量和一致性。特别是，无类分类器自由指导（Classifier-Free Guidance, CFG）——被最广泛采用的指导技术——通过对比条件和无条件预测来改进生成的图像。然而，这种方法在质量和多样性、一致性之间产生了权衡，改进了某些方面可能会牺牲其他方面的表现。虽然最近的研究表明可以在一定程度上分离这些因素，但这类方法要么需要一个额外的（较弱）模型，要么每次采样步骤需要更多的前向传递。在本文中，我们提出了一种基于最先进的扩散变换器架构中推理时的注意力机制改变的简单而有效的指导机制——熵修正指导（Entropy Rectifying Guidance, ERG），它能够在不牺牲一个方面的情况下同时提高图像质量、多样性和提示一致性。ERG 比 CFG 和类似指导技术更具通用性，因为它可以应用于无条件采样。ERG 在文本到图像生成、类别条件生成和无条件图像生成等多种生成任务中显著提高了生成效果。此外，我们还展示出 ERG 可以无缝结合其他最近的指导方法（如 CADS 和 APG），进一步提升了生成性能。

发布时间: 4/22/2025

查看原文

关于信念修正的短且异构序列的冗余性研究

作者: Paolo Liberatore

arXiv:2504.13986v1 类型: 交叉摘要: 忘记一个特定的信念修订事件可能不会消除信息，因为其他修订可能会提供相同的信息或允许推导出该信息。对于任意两个动态序列修订或任意长的动态Horn修订序列，这种情况下是否会发生已经被证明是coNP-hard。对于两个Horn修订的情况，提供了一个多项式时间算法。异构修订序列被证明属于Delta2。对其之前证明的coNP-hard性进行了增强，通过NP-hard性证明进一步证明了其复杂性。

发布时间: 4/22/2025

查看原文

一跳足以万物：通过一跳适应所有退出层级的短路Transformer早期退出预测

作者: Amrit Diggavi Seshadri

arXiv:2504.13984v1 类型: 交叉摘要: 为了减少大型语言模型推理的时间和计算成本，人们对其参数效率低秩早期退出方法产生了兴趣，该方法将变换器隐表示提前转换为最终表示。研究表明，在模型早期阶段，这种低秩捷径比恒等捷径效果更好，并且在捷径跳跃中具有参数效率。然而，当前的低秩方法在推理过程中为每个变换器中间层级维护一个独立的早期退出捷径。在本文中，我们提出了一种单一的“一跳适合所有”（One-Jump-Fits-All，简称OJFA）低秩捷径的选择，该捷径在推理过程中的捷径参数成本可以减少超过30倍。尽管这种极端的减少，我们选择的OJFA方案在推理过程中仍然与维护多个捷径跳跃的效果相当，并且对于GPT2-XL、Phi3-Mini和Llama2-7B变换器模型，所有变换器层级别的精度都是稳定的。

发布时间: 4/22/2025

查看原文