arXiv:2504.02169v1 宣告类型:交叉
摘要:我们研究了二分类问题中接收器操作特征(ROC)曲线和精确度-召回(PR)曲线的几何特性。主要发现是,许多常用的二分类度量指标都只是分类得分在正类和负类条件下的累计分布函数 $F_p(\cdot)$ 和 $F_n(\cdot)$ 组合函数 $G := F_p \circ F_n^{-1}$ 的函数。这种几何视角有助于选择操作点、理解决策阈值的效果,并比较不同分类器。它还能够解释ROC/PR曲线的形状和几何特性如何反映分类器的行为,从而提供在特定应用背景下的具体约束条件下优化分类器的客观工具。我们进一步探索了分类器主导的条件,展示了类可分性和方差对 ROC 和 PR 几何特性的影响的理论和数值示例,并推导出正类泄漏函数 $G(\cdot)$ 与克劳斯-勒布勒散度之间的关系。该框架突出了实际考量,如模型校准、成本敏感优化和在现实条件下的操作点选择,从而促进更明智的分类器部署和决策方法。
arXiv:2504.02168v1 交叉类型: cross
摘要: 当前的结构裁剪方法面临两大显著限制:(i) 它们往往将裁剪局限于更细粒度的层面,如通道,这使得参数削减过于保守;(ii) 它们主要集中在参数和FLOP的削减上,现有的针对延迟的设计方法经常依赖于简单的、次优的线性模型,这些模型在变压器等涉及多个相互作用维度的场景中难以很好地泛化。在本文中,我们通过引入多维裁剪(Multi-Dimensional Pruning, MDP)这一新颖的范式,同时在各种裁剪粒度上进行优化,包括通道、查询、键、头部、嵌入和块,来解决这两个限制。MDP采用了一种先进的延迟建模技术,能够准确捕捉所有可裁剪维度上的延迟变化,从而在延迟和精度之间实现最佳平衡。通过重新定义裁剪为混合整数非线性规划问题(MINLP),MDP能够高效地在整个可裁剪维度上识别出最优的裁剪结构,并遵守延迟约束。这种灵活的框架同时支持CNN和变压器。广泛的实验表明,MDP显著优于先前的方法,尤其是在高裁剪率下。在ImageNet上,与以前的工作HALP对ResNet50进行裁剪相比,MDP实现了28%的速度提升,并且Top-1精度提高了1.4%。与最新的变压器裁剪方法Isomorphic相比,MDP还提供了额外37%的加速,并且Top-1精度提高了0.7%。
arXiv:2504.02151v1 数据类型: cross
摘要:人工智能(AI)在编码、图像处理和数据预测等过程中的快速应用意味着我们需要全面了解和验证我们正在处理的数据。本文深入探讨了分析高维数据时面临的挑战,尤其是在数据变得过于复杂的情况下。在数据分析中,传统方法往往关注输入变量之间的直接联系,而这可能会忽略数据中的更复杂关系。
为了应对这些挑战,我们研究了几种经过测试的技术,例如移除特定变量以观察其影响,并使用统计分析来找到多个变量之间的联系。我们还考虑了合成数据的作用以及不同传感器之间信息有时可能是冗余的。这些分析通常计算成本非常高,并且往往需要大量的人力来理解结果。
一种常见方法是将整个数据集视为一个整体,并应用高级模型对其进行处理。然而,这在数据集更大、噪声更多和模型更复杂的情况下可能会成为一个问题。因此,我们建议一些方法来识别总体模式,这些模式可以帮助进行分类或回归任务,基于更为简单的方法可能会更具可理解性。
我们的研究涉及两个数据集:一个实际数据集和一个合成数据集。目标是创建一种方法,该方法在全球范围内突出显示关键特征,这些特征导致预测,从而使数据集的验证或量化过程更为简单。通过使用这种方法降低维度,我们可以简化所使用的模型,从而澄清我们获得的见解。此外,我们的方法可以揭示特定输入与输出之间未被探索的关系,提供进一步验证这些新连接的方式。
arXiv:2504.02144v1 宣告类型: cross
摘要: 软提示作为一种经济且简便的方法,已被广泛用于提高特定任务的LLM性能,超越了少样本提示。然而,尽管它们起源于一种自动化提示方法,但软提示和其它可训练提示仍然是一种黑盒方法,没有直接可解释的提示联系。我们创建了一个全新的理论框架,用于基于两点期望来评估可训练提示的可解释性:忠诚度和可审查性。我们发现现有方法未能自然满足我们提出的可解释性标准。相反,我们的框架启发了一种新的可训练提示方法方向,明确地针对可解释性进行优化。为此,我们为两种最先进的提示调优器——PEZ(Hard Prompts Made Easy)和RLPrompt——制定了并测试了新的可解释性导向目标函数。我们的实验表明,可解释性和可训练提示的任务性能之间存在基本的权衡,阐明了软提示可解释性问题的基本困难,并揭示了在优化可解释性代理时出现的奇怪行为。
arXiv:2504.02141v1 类别: cross
摘要: 自动驾驶系统(ADS)是一个安全关键型的软件系统,负责解析车辆的环境并据此做出决策。驾驶环境的无限复杂性,包括无法预见的事件,需要持续改进,这通常通过迭代的DevOps过程实现。然而,DevOps过程本身也非常复杂,使得这些改进既耗时又耗资源。使用大规模语言模型(LLM)在代码生成方面自动化ADS是一种可能的解决方法。不过,开发ADS需要严格的流程来验证、验证、评估和认证代码,在将代码部署到车辆并使用之前。在这项研究中,我们开发并评估了一个原型,该原型使用了一个基于LLM的代理、仿真模型和基于规则的反馈生成器的定制管道来实现自动代码生成和评估。LLM生成的代码在仿真模型中自动与多个关键交通场景进行评估,并提供评估报告作为反馈给LLM进行修改或修复错误。我们使用Codellama:34b、DeepSeek(r1:32b和Coder:33b)、CodeGemma:7b、Mistral:7b和GPT4来对自适应巡航控制(ACC)和未监督碰撞避免(CAEM)进行实验。最后,我们通过访谈研究在两家原始设备制造商(OEMs)中对11名专家进行了工具评估。
arXiv:2504.02137v1 类型: cross
摘要:在线内容的指数增长给工业推荐系统中的基于ID的模型带来了重大挑战,这些问题从极端的高卡尼亚性和动态增长的ID空间,到参与度分布的极度偏差,再到由于自然ID生命周期(例如新ID的出生和旧ID的退休)导致的预测不稳定。为了解决这些问题,许多系统依赖随机哈希来处理ID空间,并控制相应的模型参数(即嵌入表)。然而,这种方法引入了来自共享同一嵌入的多个ID的数据污染,导致模型性能下降和嵌入表示的不稳定性。
本文探讨了这些问题,并引入了一种新的标记参数化技术——语义ID前缀ngram,该技术显著提高了原始语义ID的性能。语义ID前缀ngram通过基于内容嵌入层次聚类项目,而不是随机分配,来创建语义上有意义的碰撞。通过广泛的实验,我们证明语义ID前缀ngram不仅解决了嵌入的不稳定性,而且还显著提高了尾部ID建模,减少了过拟合,并缓解了表示偏差。此外,我们还强调了语义ID前缀ngram在基于注意力的模型中的优势,这些模型可以为客户历史提供语境化,展示了显著的性能改进。我们还报告了将语义ID集成到Meta生产的广告排名系统中的经验,这在实时部署中带来了显著的性能提升和增强的预测稳定性。
arXiv:2504.02128v1 共识类型:交叉
摘要:区块链共识机制依赖于工作量证明(PoW)和权益证明(PoS)等算法来确保网络功能和完整性。然而,这些方法在涉及每个节点的意见时难以适应,而不是基于诚实的多数或加权共识达成一致。本文提出了一种新的基于审议的共识机制,其中大型语言模型(LLMs)作为理性的代理参与结构化的讨论以达成一致意见。通过利用加权共识和多轮审议过程,我们的方法确保了对于明确问题的一致共识,以及对于优先决策和政策的分级信心。我们对系统进行了正式化,并使用它来证明区块链的性质:一致性、协议、活跃性和确定性得以保留。此外,实验结果展示了我们系统的可行性,展示了我们的审议方法的收敛性、区块性质和准确性如何使区块链网络上的决策成为可能。我们还探讨了这种新型方法的关键挑战,如思考的退化、幻觉、恶意模型和节点、资源消耗和可扩展性问题。
arXiv:2504.02118v1 类型: cross
摘要:将大型语言模型(LLMs)部署在资源受限的边缘设备如树莓派上,面临着计算效率、功率消耗和响应延迟的挑战。本文探讨了基于量化优化技术,以便在低功耗嵌入式系统上高效地执行LLMs。我们的方法利用了k-量化,这是一种针对不同位宽设计的后训练量化(PTQ)方法,支持高效的2比特、4比特、6比特和8比特权重量化。此外,我们还采用了带有量化感知训练(QAT)的三元量化方法用于BitNet模型,从而更有效地适应更低位宽的表示,同时保持准确性。
我们的研究结果突显了量化LLMs在边缘设备上进行实时对话AI的潜力,为移动和嵌入式应用中低功耗、高效率的AI部署铺平了道路。研究表明,激进的量化策略可以显著降低能耗,同时保持推理质量,使得LLMs在资源受限的环境中更具实用性。
arXiv:2504.02114v1 Announce Type: cross
摘要:在本研究中,我们探讨了联邦学习算法在对抗窃听对手时提供的保护。在我们的模型中,对手能够拦截客户端传输给服务器的模型更新,使其能够创建自己的模型估计。不同于之前的研究主要关注保护客户端数据,我们的工作将注意力转向保护客户端模型本身。通过理论分析,我们研究了各种因素,如客户端选择的概率、本地目标函数的结构、服务器端的全局聚合以及窃听者的能力,对整体保护水平的影响。我们进一步通过数值实验验证了我们的发现,通过评估对手实现的模型准确度来衡量保护。最后,我们将我们的结果与基于差分隐私的方法进行比较,突显了它们在这一特定情境下的局限性。
arXiv:2504.02110v1 安全公告类型:跨平台
摘要:许多移动应用程序不具无障碍性,从而排除了人们对它们潜在利益的享受。现有的基于规则的无障碍检查器旨在通过在开发早期识别错误来减轻这些失败,但它们在检测错误的类型方面受到限制。我们提出了ScreenAudit,这是一个由LLM驱动的系统,旨在遍历移动应用屏幕,提取元数据和转录,并识别现有检查器未能发现的屏幕阅读器无障碍错误。我们招募了六位无障碍专家,包括一位屏幕阅读器用户,对ScreenAudit在14个独特应用屏幕上的报告进行了评估。我们的研究发现,ScreenAudit的平均覆盖率达到了69.2%,而广泛使用的无障碍检查器仅为31.3%。专家反馈表明,与现有检查器相比,ScreenAudit提供了更高质量的反馈,并且在屏幕阅读器无障碍的更多方面提出了更多内容,且ScreenAudit在实际应用场景中会为应用开发者带来好处。