arXiv:2504.04277v1 Announce Type: cross
摘要:在这个AI热潮的时代,传统的分类方法是否已经无关紧要了?我们证明,在某些多类分类问题上,预测模型整体上优于基于LLM提示的方法。我们根据Thumbtack客户提供的家庭服务项目描述中的文字和图片,构建基于嵌入的softmax模型,以预测每个问题描述相关的专业类别(例如,家庭修理工、卫生间翻新等)。我们随后将这些模型与要求最先进的LLM模型解决相同问题的提示进行比较。我们发现,嵌入方法在准确率、校准性、延迟和经济成本方面均优于提示方法。特别是,嵌入方法比提示方法在准确率上高出49.5%,并且其优越性在纯文本、纯图像和图文问题描述中保持一致。此外,嵌入方法生成了良好的校准概率,我们在部署过程中将其用作置信信号以提供上下文相关的用户体验。相反,提示方法的得分信息量过大。最后,嵌入方法分别在处理图像和文本时比提示方法快14倍和81倍,而在现实部署假设下,它可以快10倍的成本。根据这些结果,我们部署了嵌入方法的一种变体,并通过A/B测试观察到与我们离线分析一致的表现。我们的研究显示,对于能够利用专有数据集的多类分类问题,基于嵌入的方法可能能够获得无可争议的更好结果。因此,研究者、从业者、工程师和商界领导者可以利用我们的研究超越热潮,考虑适合其分类应用场景的适当预测模型。
arXiv:2504.04260v1 宣布类型:交叉
摘要:在科学机器学习中,建模高频率信息是一个关键挑战。例如,在雷诺数3500及以上的Navier-Stokes方程完全湍流流动模拟中,由于涡旋和涡流引起的旋转流体运动会产生高频率信号。使用神经网络忠实地建模此类信号依赖于准确重建中等至高频分量。然而,众所周知,深度神经网络表现出所谓的频谱偏差,倾向于学习低频分量。与此同时,Fourier神经算子(FNO)作为一种新兴的数据驱动模型,在近年来受到了广泛关注,用于解决偏微分方程(PDEs)以及一般代理建模。虽然在几个PDE基准问题上取得了令人印象深刻的成果,但FNOs在学习由局部特征定义的次主导频分量时表现不佳。这一限制源自神经网络固有的频谱偏差以及FNO及其变体中显式排除高频率模式。因此,为了减轻这些问题并提高FNO在表示广泛频率分量方面的频谱学习能力,我们提出两种关键的架构改进:(i) 一个并行分支执行局部频谱卷积;(ii) 高频传播模块。此外,我们提出了一种基于径向分组频谱误差的新颖的频率敏感损失项。通过引入用于局部卷积的并行分支,减少了高达50%的可训练参数数量,同时达到了仅依赖全局卷积的基准FNO的准确性。在流体力学和生物模式形成三个具有挑战性的PDE问题上的实验,以及对预测结果的定性和频谱分析表明,我们的方法在与最先进的神经算子基线相比时的有效性。
arXiv:2504.04252v1 类别: cross
摘要: 个性化面部表情识别(FER)涉及使用标记来源和未标记目标域的样本来适应机器学习模型。鉴于识别细微表情并考虑到个体之间差异的挑战,最先进的无监督域适应(UDA)方法集中于多源UDA(MSDA)设置,每个域对应特定的主体,并提高模型准确性和鲁棒性。然而,在适应特定目标时,多个源域的多样性导致源数据与目标数据之间存在显著的数据迁移。针对FER的最先进的MSDA方法通过考虑所有源来适应目标表示来解决这一域迁移问题。然而,适应特定目标主体带来了巨大挑战,因为源域和目标域之间的分布差异通常会导致负迁移。此外,同时整合所有源会增加计算成本并导致与目标的不匹配。为解决这些问题,我们提出了一种渐进的MSDA方法,该方法根据与目标主体的相似性逐步引入信息。这将确保仅选择与目标最相关的源,从而避免由不相似源导致的负迁移。我们首先利用与目标最接近的源来减少与目标的数据迁移,然后逐渐转向最远的源,同时仅考虑基于预设阈值的最相关的源。此外,为了缓解逐步引入源主体导致的灾难性遗忘,我们实现了一种基于密度的记忆机制,保留了适应所需的最相关的历史源样本。我们的实验展示了我们提出的方法在疼痛数据集:Biovid和UNBC-McMaster上的有效性。
arXiv:2504.04248v1 交叉类型:cross
摘要:我们考虑了人在自动化团队中执行二分类任务时的最佳决策转介问题。该自动化系统包括一个预训练的分类器,它可以观察一批独立任务的数据,分析这些数据,并可能将部分任务转介给人类操作员进行新鲜且最终的分析。我们的关键建模假设是,人类的表现会随着任务负载的增加而下降。我们将选择转介哪些任务的问题建模为一个随机优化问题,并表明,在给定任务负载的情况下,最优策略是在观测数据的基础上,转介出具有最大减少预期成本的那些任务。这提供了一种排序方案和一种策略来确定最佳转介任务集。我们通过一项使用人类参与者进行的实验,将这一策略与基准策略进行了评估。在雷达屏幕模拟器中,参与者在时间约束条件下进行了二元目标分类决策。他们遵循给定的决策规则,但在时间压力下仍有犯错的风险。初始实验估算了人类表现模型参数,而第二次实验比较了两种转介策略。结果表明,所提出的最优转介策略相对于基于自动化和人类表现模型但不基于观测数据确定转介的盲目策略,在统计上具有显著的改进。
arXiv:2504.04244v1 声明类型: cross
摘要:发现具有所需特性的新型材料是驱动创新的关键。第四次工业革命和智能制造承诺通过实时数据集成和自动化生产计划与控制实现这一领域的革命性进步。然而,仅仅依赖自动化往往未能满足复杂工艺所必需的灵活性。为了充分利用智能制造的潜力,我们必须从自动化进化到超越刚性编程的自主系统,能够动态优化解决方案的搜索。当前的发现方法往往很慢,需要多次试验才能找到最佳组合,并且在同时优化多种特性时非常昂贵。本文提出了一种贝叶斯多目标序贯决策框架(BMSDM),可以在制造过程中智能地选择实验,引导我们更快、更有效地发现最佳设计。该框架利用贝叶斯优化进行序贯学习,迭代细化代表底层制造过程的统计模型。该统计模型作为代理模型,允许高效地探索和优化,而无需进行大量实际实验。这种方法可以显著减少传统实验设计所需的数据收集时间和成本。本文将所提出的框架与传统试验设计方法以及两种其他多目标优化方法进行了比较。使用制造数据集,我们根据五个评估指标评估和比较了这些方法的性能。BMSDM在多目标决策场景中全面优于竞争方法。我们提出的方法代表了创造具备新颖材料发现能力的智能自主平台的一大飞跃。
arXiv:2504.04243v1 公布类型: 交叉学科
摘要:设计用于辅助人类决策的AI系统通常需要标签来进行监督模型的训练和评估。然而,这些标签往往未知,估计它们的不同方法涉及无法验证的假设或任意选择。在本工作中,我们引入了标签不确定性的概念,并阐述了在高风险AI辅助决策中的重要影响。我们展示了在医疗保健背景下的实证研究,重点关注在心肺复苏后昏迷患者的恢复预测。我们的研究显示,标签不确定性的模型在有已知标签的患者上评估时表现出相似性能,但对于标签未知的患者在预测上却存在显著差异。在展示了这种高风险背景下标签不确定性的重要伦理影响后,我们讨论了评估、报告和设计方面的启示。
arXiv:2504.04241v1 跨平台类型:交叉
摘要:基于ARM的架构,尤其是引入可扩展向量扩展(SVE)的架构,为高性能计算(HPC)和机器学习(ML)工作负载带来了变革性的机会。统一加速基金会(UXL)的一键式数据 analytics 库(oneDAL)是广泛采用的加速 ML 和数据 analytics 工作流程的库,但其依赖于英特尔的专有数学内核库(MKL)传统上限制了其与 x86 平台的兼容性。本文详细介绍了将 oneDAL 转移到具有 SVE 支持的 ARM 架构上,并使用 OpenBLAS 作为替代后端以克服架构和性能挑战的过程。除移植外,该研究还引入了新的 ARM 特异性优化,包括定制的稀疏矩阵例行程序、向量化的统计函数以及 SVE 优化的支持向量机(SVM)算法。这些 SVM 增强功能利用了 SVE 的可变向量长度和基于谓词的执行,实现了 Boser 方法 22% 的性能提升和 Thunder 方法 5% 的性能提升。在启用 SVE 的 AWS Graviton3 实例上的基准测试中,与 ARM 平台上原始的 scikit-learn 实现相比,机器学习训练和推理任务获得了多达 200 倍的加速。此外,在与 AWS Graviton3 ARM 实例成本接近两倍的 IceLake x86 系统上,ARM 优化的一键式数据 analytic 库与 x86 一键式数据 analytic 库(MKL 后端)在性能上达到了同等水平,并在某些情况下超过了后者。这些发现突显了 ARM 作为数据密集型 ML 应用的高性能、能源高效平台的潜力。通过扩展跨架构兼容性和对开源生态系统的贡献,这项工作巩固了 ARM 在 HPC 和 ML 领域的竞争力,为数据密集型计算的未来发展铺平了道路。
arXiv:2504.04238v1 声称类型: cross
摘要:本文从机械主义角度探讨了大型语言模型(LLMs)中理论即心态(ToM)能力的涌现,重点关注极稀疏参数模式的作用。我们引入了一种新的方法来识别ToM敏感参数,并揭示出仅仅扰动这些参数的0.001%即可显著降低ToM性能,同时也会损害语境定位和语言理解。为了理解这一效果,我们分析了这些参数与LLMs核心架构组件的相互作用。我们的研究发现,这些敏感参数与位置编码模块密切相关,尤其是在使用旋转位置嵌入(RoPE)的模型中,扰动破坏了对语境处理至关重要的主导频率激活。此外,我们还证明,扰动ToM敏感参数会通过位置编码调节查询和密钥之间的角度,从而影响LLMs的注意力机制。这些洞察为理解LLMs如何获取社会推理能力提供了更深层次的理解,将AI可解释性与认知科学联系起来。我们的研究结果对提升模型对齐、缓解偏见以及改进旨在与人类互动的AI系统具有重要意义。
arXiv:2504.04222v1 声明类型: cross
摘要:机器学习(ML)驱动的网络流量分析广泛应用于威胁检测。不幸的是,它们在不同任务和未见数据上的泛化能力非常有限。大型语言模型(LLMs),因其强大的泛化能力而备受关注,在多个领域表现出了令人鼓舞的性能。然而,由于网络流量的独特特性,其在流量分析领域的应用受到限制。为了解决这一问题,本文提出了一种名为TrafficLLM的双重阶段微调框架,该框架从异构的原始流量数据中学习通用的流量表示。该框架通过流量领域标记化、双重阶段调优管道以及可扩展的适应性,帮助LLM在动态流量分析任务中释放泛化能力,从而使其能够跨多种下游任务进行流量检测和流量生成。我们在10种不同的场景和229种类型的流量上评估了TrafficLLM。TrafficLLM在检测和生成方法上的F1分数分别为0.9875和0.9483,与现有方法相比,分别提升了80.12%和33.92%的性能。此外,它在未见过的流量上的泛化能力也得到了增强,性能提升了18.6%。我们进一步在现实场景中评估了TrafficLLM。结果表明,TrafficLLM易于扩展,并在企业流量上实现了准确的检测性能。
arXiv:2504.04215v1 模型压缩类型: 多领域交叉
摘要:大规模语言模型的迅速发展激发了对模型压缩的兴趣,以此来提高模型的可访问性和实用性。尽管有大量的研究从安全性的角度探索模型压缩,但发现安全性对齐的模型在压缩后往往会失去一些可信度。同时,机制可解释性领域得到了广泛关注,并取得了显著进展,例如识别出一个在残差流中起作用的方向,该方向能够介导不同模型架构下的拒绝行为。在本文中,我们通过研究拒绝机制来调查压缩模型的安全性,并采用一种新颖的可解释性驱动视角来评估模型安全性。此外,利用我们可解释性分析的见解,我们提出了一种轻量级、计算效率高的方法,可以在不牺牲模型性能或实用性的情况下增强压缩模型的安全性。