arXiv 论文列表

作者: Songyang Chen, Yu Liu, Lei Zou, Zexuan Wang, Youfang Lin

arXiv:2406.13216v2 通告类型: replace-cross 摘要：无监督图对齐通过利用图结构和节点特征来在一对有属性的图之间找到节点对应关系。最近的一些研究首先计算节点表示，然后通过基于嵌入的相似度匹配节点，而另一些研究则通过Gromov-Wasserstein学习将问题减少到最优传输（OT）。然而，这些方法在模型表达性以及理论表达性如何影响预测准确性方面仍未得到充分探索。我们从两个方面调查模型的表达性。首先，我们刻画模型在两个图中区分匹配节点对和未匹配节点对的能力。其次，我们研究模型确保节点匹配属性（如一对一匹配和互惠对齐）的能力。受到我们理论分析的启发，我们提出了一种具有更强表达性的混合方法，名为CombAlign。具体来说，我们为基于OT的学习启用跨维度特征交互，并提出了一种基于嵌入的方法，该方法借鉴了Weisfeiler-Lehman测试的思想。我们还从基于嵌入的模块中获得非均匀边际作为OT的先验，以增加表达性。在此基础上，我们提出了一种传统的算法改进方法，该方法结合我们的OT和基于嵌入的预测，采用集成学习策略并将其转化为最大权重匹配问题。通过仔细设计边权重，我们确保这些匹配属性并进一步提高预测准确性。通过广泛的实验，我们显示出比现有最佳方法高的14.5%的对齐准确率改进，并证实了我们理论分析的合理性。

发布时间: 5/2/2025

查看原文

路径积分形式主义中无限上下文变压器的折叠上下文凝练

作者: Won-Gi Paeng, Daesuk Kwon, Kyungwon Jeong, Honggyo Suh

arXiv:2405.04620v5 Announce Type: replace-cross 摘要：在本文中，我们通过在路径积分正式框架内重新解释 Transformer 算法的核心机制，提出了 Transformer 算法的泛化形式。在这种视角下，注意力机制被重新构建为一个过程，该过程整合了通向未来标记状态的所有可能过渡路径，时间演变由前馈网络控制。通过系统地将 Transformer 的每个组件映射到路径积分公式中的对应组件，我们获得了更简洁和高效的表示，在这种表示中，序列的上下文信息被凝聚成类似记忆的片段。这些片段在Transformer层之间递归处理，从而实现更有效的长期信息保留。我们通过 Passkey 检索任务和总结任务验证了这种方法的有效性，展示了所提出的方法在保留历史信息的同时，其内存使用量随着序列长度呈线性增长。这与标准注意力机制中通常观察到的非线性内存增长形成对比。我们期望这种受量子启发的 Transformer 架构的泛化将为提高未来Transformer模型的效率和表达能力开辟新的途径。

发布时间: 5/2/2025

查看原文

QServe: W4A8KV4 量化与系统协同设计以实现高效的大模型服务

作者: Yujun Lin, Haotian Tang, Shang Yang, Zhekai Zhang, Guangxuan Xiao, Chuang Gan, Song Han

arXiv:2405.04532v3 宣布类型: 代替交叉摘要：量化的加速对于大型语言模型（LLM）推理至关重要。超越INT8量化，研究界正在积极探索更低精度的方法，例如INT4。尽管最新的INT4量化技术可以加速小批次、边缘端的LLM推理，但在大型、基于云的LLM服务中却未能提供性能增益。我们发现了一个关键问题：现有的INT4量化方法在GPU上进行权重或部分求和去量化时存在显著的运行时开销（20-90%）。为解决这一挑战，我们引入了QoQ，这是一种具有4位权重、8位激活和4位KV缓存的W4A8KV4量化算法。QoQ代表拉丁语中的4-8-4。QoQ是通过QServe推理库实现的，并且已经在实际测量中达到了加速效果。QServe的核心洞察是，GPU上的LLM服务效率受到低吞吐量CUDA核心上操作的影响。基于这一洞察，QoQ算法引入了渐进量化，可以在W4A8 GEMM中允许低去量化开销。此外，我们还开发了SmoothAttention，以有效减少由4位KV量化引起的精度下降。在QServe系统中，我们进行了计算感知权重重新排序，并利用寄存器级并行来减少去量化延迟。我们还通过引入KV4量化最大限度地减少了关注点绑定计算的需求，并利用其带来的性能增益。因此，QServe将Llama-3-8B在A100上的最大可实现服务吞吐量提高了1.2倍，在L40S上的吞吐量提高了1.4倍；并将Qwen1.5-72B在A100上的吞吐量提高了2.4倍，在L40S上的吞吐量提高了3.5倍，相比于TensorRT-LLM。令人惊讶的是，QServe在L40S GPU上的吞吐量甚至超过了A100上的TensorRT-LLM。因此，QServe有效降低了LLM服务的费用，降低了3倍。代码可从 https://github.com/mit-han-lab/omniserve 获取。

发布时间: 5/2/2025

查看原文

大型语言模型代理作为机械设计师

作者: Yayati Jadhav, Amir Barati Farimani

arXiv:2404.17525v3 通知类型: replace-cross 摘要：传统机械设计遵循一个迭代过程，在这个过程中，初始概念通过专家评估和资源密集型有限元分析（FEM）的周期性分析来逐步完善，以满足性能目标。尽管已经开发了机器学习模型来协助此过程的一部分，但它们通常需要大型数据集、广泛的训练，并且往往针对特定任务进行调整，从而限制了它们的通用性。为了解决这些限制，我们提出了一种框架，该框架结合使用预训练的大规模语言模型（LLM）和FEM模块，基于性能规范和数值反馈自主生成、评估和改进结构设计。LLM 不进行领域特定的微调，而是利用通用推理来提出设计候选方案、解释FEM得出的性能指标，并应用结构上合理的修改。通过使用2D桁架结构作为试验平台，我们展示了LLM能够有效导航高度离散且多方面的设计空间，平衡竞争目标，并当进一步优化导致收益递减时识别收敛。与非支配排序遗传算法II（NSGA-II）相比，我们的方法实现了更快的收敛和更少的FEM评估。通过不同温度设置（0.5, 1.0, 1.2）和模型大小（GPT-4.1和GPT-4.1-mini）的实验表明，较小的模型在更少的步骤中能实现更高的约束满足度，而较低的温度增强了设计的一致性。这些结果确立了LLMs作为自主设计和结构迭代改进的新一代基于推理、自然语言驱动的优化器的潜力。

发布时间: 5/2/2025

查看原文

LoRATK：一次性LoRA，无处不在的后门威胁在共享与播放生态系统中

作者: Hongyi Liu, Shaochen Zhong, Xintong Sun, Minghao Tian, Mohsen Hariri, Zirui Liu, Ruixiang Tang, Zhimeng Jiang, Jiayi Yuan, Yu-Neng Chuang, Li Li, Soo-Hyun Choi, Rui Chen, Vipin Chaudhary, Xia Hu

arXiv:2403.00108v2 宣布类型: replace-cross 摘要：使用LoRA微调大规模语言模型因其简单性和有效性而获得了显著的流行度。用户甚至可以找到可插拔的、由社区共享的LoRAs来增强其基础模型以完成特定的下游任务，从而享受到强大、高效且定制化的LLM体验，而几乎不需要投资。然而，这种方便的共享和播放生态系统也引入了一个新的攻击面，攻击者可以向急于尝试共享资产的社区分发恶意LoRAs。尽管潜在风险很高，但在下游增强的共享和播放情境下，此前没有任何研究全面探索过LoRA的攻击面。在这篇论文中，我们研究了如何将后门注入任务增强的LoRAs，并检查了此类感染的机制。我们发现，通过一个简单、高效且特定的配方，可以一次性训练一个后门LoRA，然后以无需训练的方式（seamlessly merged）合并到多个任务增强的LoRAs中，同时保持其恶意后门和正常的下游功能。这使攻击者能够通过利用现有的大量共享LoRA资产来最小化努力规模地分发受损LoRAs。我们注意到，这种合并后的LoRAs特别具有传染性——因为其恶意意图巧妙地隐藏在改进的下游能力之后，从而产生了自愿下载的强大动力——并且危险——因为在本地部署时，没有任何安全措施可以在出现问题时进行干预。我们的工作是首次研究这种新的威胁模型：无训练下的下游功能且带有后门注入的LoRAs的分发，强调了LoRA生态系统中提高安全意识的迫切需要。警告：本论文包含不当内容，涉及现实生活中的悲剧。

发布时间: 5/2/2025

查看原文

Fiddler：CPU-GPU 协调以实现混合专家模型的快速推理

作者: Keisuke Kamahori, Tian Tang, Yile Gu, Kan Zhu, Baris Kasikci

arXiv:2402.07033v3 公告类型: 替换交叉摘要：具有专家混合架构（Mixture-of-Experts, MoE）的大语言模型（Large Language Models, LLMs）在各种任务上表现出令人 promising 的性能。然而，由于模型规模巨大，在资源受限的环境中运行这些模型充满挑战，特别是当 GPU 内存不足时。一些现有系统建议使用 CPU 资源来解决这个问题，但它们要么遭受频繁在 CPU 和 GPU 之间移动数据的巨大开销，要么未能考虑 CPU 和 GPU 的不同特性。本文提出了 Fiddler，这是一种针对有限 GPU 资源的 MoE 模型的资源高效推理系统。Fiddler 通过确定最佳执行策略战略性地利用 CPU 和 GPU 资源。我们的评估表明，与针对特定场景（如单批推理或长预填充）优化的最新系统不同，Fiddler 在所有场景中表现更优。与不同基线相比，Fiddler 在单批推理中的速度提高 1.26 倍，在长预填充处理中提高 1.30 倍，在 beam search 推理中提高 11.57 倍。Fiddler 的代码可在 https://github.com/efeslab/fiddler 上公开获取。

发布时间: 5/2/2025

查看原文

未标注的标签会导致因果关系中的非传递性悖论

作者: Bijan Mazaheri, Siddharth Jain, Matthew Cook, Jehoshua Bruck

arXiv:2311.06840v4 宣布类型: replace-cross 摘要: 我们探索"缺失标签上下文"，在这种情况下，训练数据仅限于可能标签的子集。这种设置在专门的人类专家或特定、集中的研究中是标准的。通过对辛普森悖论的研究，我们发现“正确的”调整有时需要非可交换的处理组和控制组。辛普森悖论的推广使我们研究了不同上下文得出的结论网络，在这些网络中，非传递性的悖论出现了。我们证明，这些网络中可能存在的非传递性结构的空间正好对应于由偏好投票聚合形成的结构。

发布时间: 5/2/2025

查看原文

EvoPrompt：与进化算法连接的大型语言模型生成强大提示优化器

作者: Qingyan Guo, Rui Wang, Junliang Guo, Bei Li, Kaitao Song, Xu Tan, Guoqing Liu, Jiang Bian, Yujiu Yang

arXiv:2309.08532v3 宣告类型: replace-cross 摘要: 大型语言模型（LLMs）在各种任务中表现出色，但它们依赖于精心设计的提示，这些提示通常需要大量的人工努力。为了自动化这一过程，本文提出了一种名为 EvoPrompt 的新颖离散提示优化框架，该框架借鉴了进化算法（EAs）的思想，因为它们在性能和快速收敛方面表现出色。为了使 EAs 能够应用于离散提示，这些提示是需要连贯且可读的自然语言表达，我们将 LLMs 与 EAs 相结合。这种方法使我们能够同时利用 LLM 强大的语言处理能力以及 EAs 高效的优化性能。具体来说，EvoPrompt 不使用任何梯度或参数，从一组初始提示开始，并基于进化操作使用 LLM 逐步生成新的提示，并根据开发集改进这一群体。我们在闭源和开源 LLMs（包括 GPT-3.5 和 Alpaca）上使用 31 个数据集对提示进行了优化，这些数据集涵盖了语言理解、生成任务以及 BIG-Bench Hard（BBH）任务。EvoPrompt 显著优于人工设计的提示和现有的自动提示生成方法（例如，在 BBH 上最高可达 25%）。此外，EvoPrompt 证明了将 LLMs 与 EAs 相结合可以产生协同效应，这可能激发未来关于 LLMs 和传统算法组合的研究。

发布时间: 5/2/2025

查看原文

学习一种基于主动推断的驾驶员感知与控制模型：以车辆跟随行为为例

作者: Ran Wei, Anthony D. McDonald, Alfredo Garcia, Gustav Markkula, Johan Engstrom, Matthew O'Kelly

arXiv:2303.15201v2 宣告类型: 替换-交叉摘要：在本文中，我们介绍了一种通用估计算法，用于基于有限数量的演示，在传感器运动控制任务中学习人类感知和控制的模型。该模型的结构包括：i. 代理对环境及其关联观测随控制行为演变的内部表示，以及ii. 代理对可观测结果的偏好。我们考虑该模型结构与主动推理相一致，主动推理是认知科学中的人类感知与行为理论。根据主动推理理论，代理通过减少惊愕（定义为当前感觉观察与偏好感觉观察之间差异的一种度量）来作用于世界。我们提出了一种双层优化方法来进行估算，该方法依赖于先验分布的结构假设，这些分布参数化了人类代理对环境的统计准确性模型。为了说明所提出的方法，我们基于自然istic数据集估计了一种跟随汽车行为的模型。总体而言，结果表明，从数据中学习人类感知和控制的主动推理模型是一种相对于黑盒驾驶模型的有前景的替代方案。

发布时间: 5/2/2025

查看原文

通过时间上下文 characterization 人类在数字平台上的动作

作者: Akira Matsui, Emilio Ferrara

arXiv:2206.09535v2 宣告类型: 替换-交叉摘要: 近年来，数字平台生成了丰富而高维度的人类行为日志，机器学习模型帮助社会科学家解释知识积累、沟通和信息传播。然而，这类模型几乎总是将行为视为一系列动作的序列，忽略了动作之间的跨时间信息。为了解决这一问题，我们提出了一种双尺度行动-时间上下文（ATC）框架，该框架联合嵌入了每个动作及其时间间隔。ATC获得了动作的低维度表示，并利用跨时间信息对其进行了表征。我们提供了 ATC 在真实世界数据集中的三种应用，并证明了该方法为人类行为提供了一个统一的视角。呈现的定性结果表明，明确建模跨时间上下文对于全面、可解释地理解数字平台上的人类活动至关重要。

发布时间: 5/2/2025

查看原文