arXiv:2502.12459v1 宣告类型: cross
摘要:本文探讨了大型语言模型(LLMs)在推广到新颖输入时的脆弱性,特别是集中在标准基准上的微小扰动(例如问题格式或干扰项长度的轻微变化)。尽管大型语言模型在基准测试中的得分很高,但它们在面对这些微小但保持内容不变的修改时会表现出显著的准确率下降和意想不到的偏见(例如倾向于更长的干扰项)。例如,Qwen 2.5 1.5B的MMLU分数从60上升到89,然后当选项长度改变而问题本身未变时,再次下降到36。即使是GPT-4,在问题类型发生变化的情况下也经历了25点的准确率损失,所有三个修改类别中的准确率分别下降了6点。这些分析表明,LLMs 依赖于表层线索,而不是形成能够在不同格式、词汇变体和无关内容转移下进行泛化的稳健且抽象的表示。本文与ACL 2025的主题轨道一致,该轨道专注于自然语言处理模型的推广性,提出了“推广性压力测试”来评估在可控扰动下的性能变化。研究呼吁重新评估基准测试,并开发更可靠的评价方法来更准确地捕捉LLMs的推广能力。
arXiv:2502.12456v1 宣告类型: cross
摘要: 学习3D点云的生成模型是3D生成学习中的基本问题之一。点云的一个关键性质是它们的置换不变性,即改变点云中点的顺序不会改变它们所表示的形状。在本文中,我们分析了最近提出的等变OT流,这些方法用于学习基于点的分子数据的置换不变生成模型,并表明这些模型在处理大规模点云时效率低下。此外,我们观察到学习(等变的)OT流通常具有挑战性,因为使流轨迹直线化会使得在轨迹开始时学习到的流模型变得复杂。为了解决这些问题,我们提出了近似OT流模型,通过离线预计算OT来获得近似的OT,从而能够高效地构建OT对用于训练。在训练过程中,我们还可以通过结合我们的近似OT和独立耦合来构建混合耦合,使目标流模型更容易学习。在广泛的经验研究中,我们展示了我们的提出模型在ShapeNet基准上的无条件生成和形状补全方面优于先前的扩散-和流基于的方法。
arXiv:2502.12454v1 公告类型: cross
摘要:本研究探讨了使用大规模语言模型(LLMs)自动标注日常生活场景中人类情绪的可行性和性能。我们在公开可用的FERV39k数据集的DailyLife子集中进行了实验,使用GPT-4o-mini模型对从视频片段中提取的关键帧进行快速零样本标注。在七类情感分类学("愤怒"、"厌恶"、"恐惧"、"快乐"、"中性"、"悲伤"、"惊讶")下,LLM 的平均精确度约为 50%。相比之下,当限制为三类情感分类(消极/中性/积极)时,平均精确度提高到约 64%。此外,我们还探讨了一种策略,即将1-2秒的视频片段中的多个帧结合起来,以提高标注性能并降低成本。结果表明,这种方法可以在一定程度上提高标注准确性。总体而言,我们的初步发现突显了零样本LLMs在人类面部情绪标注任务中的潜在应用,为减少标注成本提供了新的途径,并扩大了LLMs在复杂多媒体环境中的应用范围。
arXiv:2502.12453v1 Announce Type: cross
摘要:药物发现对于识别各种疾病的候选药物至关重要。然而,其较低的成功率往往导致标注数据稀缺,从而引发少量样本学习问题。现有的方法主要集中在单尺度特征上,忽视了决定分子不同性质的分层分子结构。为了解决这些问题,我们引入了通用匹配网络(UniMatch),这是一种结合显式分层分子匹配和隐式任务级匹配的双匹配框架,通过元学习将多级分子表示与任务级泛化连接起来。具体而言,我们的方法通过分层池化和匹配显式捕捉多级结构特征,如原子、亚结构和分子,从而实现精确的分子表示和比较。此外,我们采用元学习策略进行隐式任务级匹配,使模型能够捕获跨任务的共享模式,并快速适应新的任务。这种统一的匹配框架确保了有效的分子对齐,同时利用共享元知识实现快速适应。我们在MoleculeNet和FS-Mol基准测试中的实验结果表明,UniMatch超越了现有最先进的方法,在AUROC上提高了2.87%,在delta AUPRC上提高了6.52%。此外,UniMatch在Meta-MolNet基准测试中也显示出出色的泛化能力。
arXiv:2502.12446v1 交叉类型公告
摘要:推理时干预(ITI)已经成为一种有前途的方法,通过在不昂贵地更新大型语言模型(LLM)参数的情况下干预token表示,来引导LLM的行为朝着特定方向(例如,提高有用性)发展。然而,现有的ITI方法无法扩展到具有一致性冲突的多属性设置中,例如,在提高有用性的同时减少有害性。为了解决这一问题,我们提出了多属性定向引导(MAT-Steer)这一新颖的引导框架,它旨在在多个属性上对选定的token级进行干预。MAT-Steer 使用对其内部表示进行对齐的目标,将模型对不 desirable 输出的表示移向 desirable 输出的表示,同时在不同属性的向量之间强制稀疏性和正交性,从而减少属性间的冲突。我们在两种不同的场景中评估了MAT-Steer:(i)问答(QA)任务中,我们平衡了像真实性和偏见这样的属性;(ii)生成任务中,我们同时改善了像有用性、正确性和连贯性这样的属性。MAT-Steer 在两种任务类型中均优于现有ITI和参数高效微调方法(例如,在问答任务中平均提高了3%的准确性,在对抗最佳ITI基线中的胜率达到了55.82%)。
arXiv:2502.12444v1 宣传类型:交叉
摘要:大型语言模型对计算资源、延迟和内存有高要求。虽然专用加速器如GPU和TPU通常用于运行这些工作负载,但CPU更为普及,并消耗更少的能量。通过使用CPU加速语言模型可以使AI的访问更加广泛,同时降低成本和能耗。在语言模型推理的内存受限解码阶段,这种CPU加速潜力尤其重要,该阶段每次处理一个词元并且随着基于推理的模型使用频率的增加而变得越来越重要。我们通过在最新一代的Intel CPU上利用Advanced Matrix Extensions (AMX) 支持与无结构稀疏性结合,相对于当前的PyTorch实现,在线性层上应用我们的技术以达到端到端延迟减少1.42倍。我们提供了一组开源定制化稀疏内核,可以在任何PyTorch模型上自动用我们的定制稀疏实现替代所有线性层,从而加速模型。此外,我们首次展示了在注意力计算中使用无结构稀疏性,该方法相对于当前系统速度提升1.14倍,同时保持准确性。代码:https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning/tree/main/SparAMX
arXiv:2502.12430v1 宣告类型: cross
摘要: "被遗忘的权利"和将其编码的数据隐私法推动了机器遗忘研究的最早起源。现在,一股来自欧盟人工智能法案(AIA)等人工智能法规的内向浪潮,可能为机器遗忘提供重要的新应用场景。然而,本文认为,这一机遇只有在研究者在政策制定者的协助下,积极弥合机器遗忘当前最先进的技术和其在人工智能法规应用之间可能存在的差距时,才能得以实现。为了说明这一点,我们以AIA为例。具体来说,我们提供了机器遗忘当前在AIA合规性方面潜在应用的概览。对于每一个应用,我们指出了任何可能模糊潜在应用法律问题的法律模糊性,并且还指出了机器遗忘在当前最先进的技术与潜在应用之间的技术差距。最后,我们提出一项呼吁:对于机器学习研究者和政策制定者来说,分别解决打开机器遗忘在帮助遵守AIA以及其他类似的AI法规方面潜力的开放技术和法律问题的挑战。
arXiv:2502.12420v1 Announce Type: cross
摘要:大型语言模型的近期进展产生了大量专门任务的精细调优变体,这要求高效地合并模型的技术能够在保持专门能力的同时避免昂贵的重新训练。尽管现有的基于任务向量的合并方法显示出希望,但它们通常对所有参数使用统一的系数,忽视了在任务内部和跨任务参数的重要性差异。我们提出了一种敏感性指导的系数调整方法——Sens-Merging,该方法通过在任务特定和跨任务级别上操作,增强现有的模型合并技术。我们的方法在单一任务中分析参数的敏感性,并评估跨任务转移性,以确定最佳的合并系数。我们在Mistral 7B和LLaMA2-7B/13B模型上的广泛实验表明,Sens-Merging在一般知识、数学推理和代码生成任务中显著提高了性能。特别地,当与现有的合并技术结合使用时,我们的方法使合并模型能够优于专门的精细调优模型,特别是在代码生成任务中。我们的研究结果揭示了任务特定和跨任务缩放之间的重要权衡,为未来的模型合并策略提供了见解。
arXiv:2502.12418v1 交叉类型: cross
摘要: 色度恒定估计光源色度以校正色彩偏差的图像。近年来,基于深度神经网络的色度恒定(DNNCC)模型取得了显著进展。然而,由于深度神经网络的脆弱性,DNNCC 中的风险尚未被探索。在本文中,我们首次从鲁棒性的角度调查了亮度这一色度恒定的关键因素对 DNNCC 的影响。我们的评估表明,尽管主流的 DNNCC 模型专注于色度估计,但它们对亮度的高敏感性仍然存在。这揭示了现有 DNNCC 模型的一个潜在限制:它们对亮度的敏感性可能因现实世界数据集中普遍存在的亮度变化而影响其性能。从我们分析的见解出发,我们提出了一种简单而有效的亮度鲁棒性增强策略,该策略适用于 DNNCC 模型,称为 BRE。BRE 的核心基于自适应步长对抗亮度增广技术,该技术识别高风险亮度变化并通过显式亮度调整生成增广图像。随后,BRE 开发了一种亮度鲁棒性感知的模型优化策略,该策略结合了对抗亮度训练和亮度对比损失,大幅增强了 DNNCC 模型的亮度鲁棒性。BRE 无超参数,并且可以在现有的 DNNCC 模型中集成,而不会在测试阶段增加额外的开销。在两个公开的色度恒定数据集——ColorChecker 和 Cube+ 上的实验表明,所提出的 BRE 一致地提高了现有 DNNCC 模型的光源估计性能,平均降低估计误差 5.04%,突显了增强亮度鲁棒性在这些模型中的关键作用。
arXiv:2502.12411v1 安全公告类型: cross
摘要:不安全的提示对大型语言模型(LLMs)构成了显著的安全风险。现有的不安全提示检测方法依赖于数据驱动的微调来训练防护模型,这需要大量的数据和计算资源。相比之下,最近出现了一些基于少量示例的梯度方法,只需少量的安全和不安全的参考提示即可。基于梯度的方法通过分析大型语言模型中安全关键参数的梯度的一致模式来识别不安全的提示。尽管有效,但其方向相似性(余弦相似性)的限制引入了“方向偏见”,限制了其识别不安全提示的能力。为克服这一限制,我们引入了GradCoo,这是一种新颖的梯度共现分析方法,将安全关键参数的识别范围扩展到包括未带符号的梯度相似性,从而减少了“方向偏见”的影响,提高了不安全提示检测的准确性。在广泛使用的基准数据集ToxicChat和XStest上的综合实验显示,我们提出的方法在与现有方法的性能上达到了最先进的(SOTA)水平。此外,我们在各种大小和来源的大型语言模型基模型中确认了GradCoo检测不安全提示的一般性。