arXiv 论文列表

作者: Nari Johnson, Elise Silva, Harrison Leon, Motahhare Eslami, Beth Schwanke, Ravit Dotan, Hoda Heidari

arXiv:2411.04994v2 采购类型：替代交叉摘要：大多数政府采用的AI工具并不是内部开发的，而是通过一个称为公共采购的过程从第三方供应商处获得。在本文中，我们首次对美国城市采购实践如何影响公共部门AI的关键决策进行了实证研究。我们对7个美国城市中负责AI采购的19名政府员工进行了半结构化访谈。我们发现，城市的遗留采购实践，这些实践由几十年前的法律和规范所塑造，建立了一种基础设施，决定了哪些AI会被采购，以及哪些利益相关者在采购的AI上拥有决策权。我们刻画了城市为应对算法危害而采取的新兴行动，以适应其采购实践。从员工对实际AI采购的经验中，我们识别出三项关键挑战，这些挑战推动了但并未完全由现有的AI采购改革倡议解决。基于这些发现，我们讨论了FAccT社区支持城市在整个公共采购过程中预见和预防AI危害的含义和机会。

发布时间: 2/11/2025

查看原文

元推理改善了大型语言模型的工具使用能力

作者: Lisa Alazraki, Marek Rei

arXiv:2411.04535v2 宣告类型：替换交叉摘要：外部工具帮助大型语言模型在它们通常会失败的任务中取得成功。在现有的框架中，选择工具通常依赖于简单的贪婪解码，无论模型是否已针对带有工具注释的数据进行了精细调整，还是通过上下文示例进行提示。与此相反，我们发现，收集并在适当的一组备选工具中进行选择，具有更大的潜在优势，可以导致最优选择。我们提出了基于元推理的工具选择（HEETON）系统，这是一个两阶段系统，首先使用自定义的微调语言模型头部对任务进行推理并输出候选工具。然后，在禁用自定义头部的情况下，它进行元推理（即对先前的推理过程进行推理），最终做出选择。我们展示了HEETON在一系列数学推理数据集上实现了实质性的收益，无论是分布内的还是分布外的。

发布时间: 2/11/2025

查看原文

在极端导航中：大型输出空间中的动态稀疏性

作者: Nasib Ullah, Erik Schultheis, Mike Lasby, Yani Ioannou, Rohit Babbar

arXiv:2411.03171v3 通知类型: 交叉替换摘要: 近年来，动态稀疏训练(DST)作为一种后训练剪枝的替代方案，在生成高效模型方面崭露头角。原则上，DST能够在整个训练过程中保持稀疏性，从而实现更高效的内存使用。然而，当前的DST实现未能充分利用这一点。由于在GPU上稀疏矩阵乘法远不如密集矩阵乘法高效，大多数实现是通过掩码权重来模拟稀疏性。在本文中，我们利用近期在结构化稀疏训练方面的进展，在分类任务中应用DST，其中内存效率至关重要。当标签空间可能包含数百万个候选标签时，分类层本身将消耗数GB的内存。从密集层转变为固定扇入的稀疏层，并通过稀疏进化训练(SET)进行更新，尽管这在较大标签空间下严重阻碍了训练收敛。我们发现，从稀疏分类器到密集文本编码器的梯度流不佳，使得难以学习良好的输入表示。通过引入中间层或添加辅助训练目标，我们可以恢复大部分密集模型的一般化性能。总体而言，我们在一个具有高度偏斜标签分布且与典型的DST基准数据集差异很大的具有挑战性的域中展示了DST的适用性和实际优势，这使得使用商用硬件在数百万标签上进行端到端训练成为可能。

发布时间: 2/11/2025

查看原文

通过隐式通信通道学习通信

作者: Han Wang, Binbin Chen, Tieying Zhang, Baoxiang Wang

arXiv:2411.01553v2 通信类型: 替换-交叉摘要：有效的沟通是协作多智能体系统的重要组成部分。历史上，人类社会中经常出现无法进行显式消息传递的情况，这推动了对隐式沟通的研究。以往关于学习隐式沟通的工作大多依赖于理论思维（Theory of Mind，ToM），其中智能体通过解释他人的行为来推断他人的心理状态和意图。然而，在复杂的任务中，基于ToM的方法在进行准确推断方面变得不太有效。在本文中，我们提出了一种隐式渠道协议（ICP）框架，该框架允许智能体通过类似于显式通信渠道的隐式通信渠道进行沟通。ICP 利用了一组动作，称为探索动作，并利用信息与这些探索动作之间的映射来编码和解码消息。我们提出了智能体进行消息传递和行动的训练算法，包括使用随机初始化的信息映射和使用延迟的信息映射。ICP 在猜数字、揭示目标和汉诺塔任务中的有效性已被测试，在这些任务中，ICP 通过更有效的信息传递显著优于基线方法。

发布时间: 2/11/2025

查看原文

大型语言模型中高效问答的动态策略规划

作者: Tanmay Parekh, Pradyot Prakash, Alexander Radovic, Akshay Shekher, Denis Savenkov

arXiv:2410.23511v2 宣告类型: replace-cross 摘要：研究表明，推理（例如，链式思考）、规划（例如，自我提问）和检索增强生成策略在提高大型语言模型（LLMs）在各种任务（如问答）上的性能方面是有效的。然而，使用单一固定的策略来回答不同类型的问题在性能上是次优的，并且在生成输出令牌和执行检索方面是低效的。在我们的工作中，我们提出了一种新颖的技术 DyPlan，以在 LLMs 中引发一种动态策略选择过程，以提高问答中的性能并降低成本。DyPlan 包含一个初始决策步骤，根据输入问题选择最合适的策略，并据此引导 LLM 的响应生成。我们扩展了 DyPlan 以得到 DyPlan-verify，增加了内部验证和修正过程，以进一步丰富生成的答案。在三个著名的多跳问答（MHQA）数据集上的实验展示了 DyPlan 可以使模型性能提高 7-13%，同时相对最好基线模型降低成本 11-32%。

发布时间: 2/11/2025

查看原文

ProMoE：快速基于Proactive Caching的MoE机制的大语言模型服务

作者: Xiaoniu Song, Zihang Zhong, Rong Chen, Haibo Chen

arXiv:2410.22134v2 宣告类型: 替换-交叉摘要：大型语言模型的有前途的应用往往受限于边缘设备上可用的受约束的GPU内存容量。专家混合模型（MoE）通过在计算时仅激活模型的一部分参数来解决这一问题。这种方法允许未使用的参数卸载到宿主内存，从而减少了整体GPU内存需求。然而，现有的基于缓存的卸载解决方案对缓存缺失反应性处理，这严重影响了系统性能。在本文中，我们介绍了ProMoE，这是一种新颖的主动缓存系统，利用中间结果预测后续专家的使用情况。通过预先主动获取专家，ProMoE 消除了对缓存缺失的被动处理，将加载时间从关键路径中移除，并减少了与卸载相关的性能开销。我们的评估结果表明，与现有的卸载解决方案相比，ProMoE 分别在填充前和解码阶段实现了平均 2.20 倍（最高 3.21 倍）和 2.07 倍（最高 5.02 倍）的速度提升。

发布时间: 2/11/2025

查看原文

快速且高质量的自回归语音合成方法：推测性解码

作者: Bohan Li, Hankun Wang, Situo Zhang, Yiwei Guo, Kai Yu

arXiv:2410.21951v2 通知类型: 替换-交叉摘要: 自回归架构，如GPTs，在现代文本到语音(TTS)系统中广泛应用。然而，它会导致显著的推理时间，特别是在预测长语音令牌序列的下一个令牌时所面临的挑战。在本文中，我们介绍了VADUSA，这是一种通过推测性解码加速自回归TTS的首创方法之一。我们的结果表明，VADUSA不仅显著提高了推理速度，而且还通过引入草稿头以自回归方式预测未来语音内容来提高性能。此外，在采样过程中引入容忍机制加速了推理，同时不牺牲质量。我们的方法在大型数据集和各种类型的语音令牌上展示了强大的泛化能力。

发布时间: 2/11/2025

查看原文

专家模型与语言模型之间差距的桥梁：概念引导的棋局评论生成与评估

作者: Jaechang Kim, Jinmin Goh, Inseok Hwang, Jaewoong Cho, Jungseul Ok

arXiv:2410.20811v2 通报类型: 替换交叉摘要：基于深度学习的专家模型在象棋和围棋等决策领域已达到超人类性能。然而，解释或评论给定的决策尚未得到充分探索，尽管这对于模型解释性和人类教育至关重要。专家模型的输出非常准确，但对人类来说难以理解。另一方面，大型语言模型（LLMs）可以产生流畅的评论，但由于其有限的决策能力，容易产生幻觉。为了弥合专家模型和LLMs之间的差距，我们专注于象棋评论作为通过语言解释复杂决策过程的代表性任务，并解决评论的生成和评估。我们引入了概念引导的象棋评论生成 (CCC) 以生成评论，并基于GPT的象棋评论评估 (GCC-Eval) 以评估评论。CCC 通过优先、概念引导的解释，将专家模型的决策优势与LLMs的语言流畅性结合起来。GCC-Eval 利用专家知识，基于信息量和语言质量评估象棋评论。实验结果，经人类评委和GCC-Eval验证，表明CCC生成的评论准确、信息丰富且流畅。

发布时间: 2/11/2025

查看原文

基于掩码的成员 inference 攻击针对检索增强生成

作者: Mingrui Liu, Sixiao Zhang, Cheng Long

arXiv:2410.20142v2 公告类型: replace-cross 摘要：检索增强生成（RAG）通过引入最新的和领域特定的知识，已成为减轻大型语言模型（LLMs）幻觉的有效方法。最近，有一种趋势是在RAG知识数据库中存储最新的或版权保护的数据，而不是将这些数据用于LLM的训练。这一做法引发了关于成员推理攻击（MIAs）的担忧，这些攻击旨在检测特定目标文档是否存储在RAG系统的知识数据库中，从而保护数据提供者的权益。尽管研究集中在增强RAG系统的可信度上，但现有的针对RAG系统的MIAs仍然存在很大不足。现有工作要么仅依赖于RAG系统的判断，要么容易受其他文档或LLM内部知识的影响，这些因素是不可靠且缺乏解释性的。为了解决这些限制，我们提出了一种基于掩码的成员推理攻击（MBA）框架。我们的框架首先采用一个有效的掩码算法，对目标文档中的某些单词进行掩码。掩码后的文本随后被用作对RAG系统的提示，且要求RAG系统预测掩码值。如果目标文档出现在知识数据库中，掩码后的文本将检索到完整的目标文档作为上下文，从而可以实现准确的掩码预测。最后，我们采用一种简单且有效的阈值方法，通过分析掩码预测的准确性来推断目标文档的成员身份。基于掩码的方法更具文档针对性，使RAG系统的生成结果更少受到其他文档或LLM内部知识的干扰。广泛实验证明了我们的方法在与现有基线模型相比时的有效性。

发布时间: 2/11/2025

查看原文

超越2:4: 探索V:N:M稀疏性以在GPU上实现高效的变压器推理

作者: Kang Zhao, Tao Yuan, Han Bao, Zhenfeng Su, Chang Gao, Zhaofeng Sun, Zichen Liang, Liping Jing, Jianfei Chen

arXiv:2410.16135v2 宣告类型: replace-cross 摘要: 到目前为止，2:4稀疏性是唯一一种可以在GPU上利用稀疏张量内核加速的稀疏模式。实践中，2:4稀疏性往往只能带来较低的实际加速比（$\leq 1.3$），并且需要固定稀疏比例，这意味着其他比例，如4:8、8:16，或超过50%稀疏性的情况，在GPU上不会带来任何加速。最近的研究表明，V:N:M稀疏性在解决2:4稀疏性这些局限性方面颇具前景。然而，关于准确性方面，V:N:M稀疏性对更广泛的变换器模型，如视觉变换器和大规模语言模型（LLMs），的影响尚不明确。此外，还存在一些特定的关于V:N:M稀疏性的问题，比如如何选择合适的V和M值，仍需解决。在本研究中，我们全面探讨了V:N:M稀疏性在视觉模型和LLMs上的应用，贯穿于多个任务，从下游任务出发。我们提出了三种关键方法来增强V:N:M稀疏变换器的适应性和准确性，包括启发式V和M的选择、V:N:M特定的通道重排和三阶段LoRA训练技术。实验结果表明，通过我们的方法，DeiT-small在64:2:5稀疏性下实现了无损准确性，而DeiT-base在64:2:8稀疏性下也保持了准确性。此外，微调后的LLama2-7B在64:2:5稀疏性下在下游任务上的表现与2:4稀疏无训练版本相当或更好。更重要的是，V:N:M稀疏变换器提供了比2:4稀疏更广泛的加速-准确性权衡范围。总体而言，我们的探索极大地促进了V:N:M稀疏性在成本敏感推理场景中作为真正有效的加速解决方案的作用。

发布时间: 2/11/2025

查看原文