arXiv:2401.14617v2 公告类型: replace-cross
摘要:人工智能(AI)算法在机器学习(ML)和深度学习(DL)领域的卓越成就推动了其在多个领域的广泛应用,包括软件工程(SE)。然而,由于这些模型的黑盒性质,尽管前景光明,它们仍然远未在实践中得到部署。这种缺乏透明性解释性在关键任务如漏洞检测中会带来不必要的风险,而在这些任务中决策透明性至关重要。本文旨在通过系统文献回顾,阐明这一跨学科领域,展示旨在改善软件工程(SE)背景下AI模型解释性的方法。该回顾涵盖了最知名的SE和AI会议和期刊上的工作,横跨23种独特的SE任务,共包含108篇论文。基于三个关键的研究问题(RQs),我们旨在(1)总结到目前为止XAI技术在哪些SE任务中已取得成功;(2)分类和分析不同的XAI技术;以及(3)调查现有的评估方法。基于我们的发现,我们确定了现有研究中仍需解决的一系列挑战,并指出了我们认为对未来工作具有潜在机会和重要性的指导方针。
arXiv:2312.15230v3 公告类型: replace-cross
摘要:神经网络可以通过剪枝有效地压缩,显著减少存储和计算需求,同时保持预测性能。简单而有效的方法,如幅度剪枝,会移除不重要的参数,通常需要昂贵的重新训练程序来恢复性能。然而,随着大语言模型(LLMs)的发展,由于内存和计算限制,全面重新训练变得不可行。这项研究挑战了对所有参数进行重新训练的做法,表明更新少量高表达性参数足以在剪枝后恢复甚至提升性能。令人惊讶的是,在GPT架构中,只需重新训练0.01%-0.05%的参数,就能在各种稀疏度水平上匹配全面重新训练的性能,显著减少了计算和内存需求,使得在单个GPU上重新训练多达300亿参数的模型可以在几分钟内完成。为了在高稀疏度范围内弥合全面重新训练的差距,我们引入了两种新的LoRA变体,这些变体与标准LoRA不同,能够在不牺牲稀疏性的情况下重新合并适配器。进一步地,我们展示了这些方法可以应用于高效层间重构,显著增强了Wanda(Sun et al., 2023)和SparseGPT(Frantar & Alistarh, 2023)等无重新训练方法的性能。我们的发现提供了一个避免重新训练的有前途的替代方案。
arXiv:2310.15318v4 Announce Type: replace-cross
摘要:图已经成为了代表和分析互联网的复杂模式和丰富信息的自然选择,使诸如在线页面分类和社会推荐之类的应用成为可能。盛行的“预训练、微调”范式在图机器学习任务中被广泛应用,特别是在带标签节点数量有限的场景中。然而,这种方法往往会在预训练辅助任务的训练目标与下游任务的训练目标之间表现出错位。这个差距可能导致“负迁移”问题,即预训练获得的知识会反作用于下游任务的性能。自然语言处理(NLP)中基于提示的学习热潮表明,可以将“预训练、提示”范式适应到图上作为一种替代方案是有潜力的。然而,现有的图提示技术仅针对同质图设计,忽视了Web图的内在异质性。为了解决这一问题,我们提出了HetGPT,这是一种通用的后训练提示框架,旨在提高预训练异质图神经网络(HGNNs)的预测性能。关键在于设计了一种新的提示函数,该函数结合了虚拟类提示和异质特征提示,旨在重新构建下游任务以模仿预训练辅助任务。此外,HetGPT 引入了一种多视图邻域聚合机制,用于捕捉异质图中的复杂邻域结构。三项基准数据集上的广泛实验表明,HetGPT 有能力提升最新HGNNs在半监督节点分类任务上的性能。
arXiv:2309.02705v4 安全声明类型: replace-cross
摘要:大型语言模型(LLMs)容易受到恶意攻击的威胁,这些攻击会在输入提示中添加恶意标记,以绕过LLM的安全保护措施并使其生成有害内容。在本工作中,我们引入了消除并检查框架,这是第一个针对具有可认证安全保证的对抗提示的防御框架。给定一个提示,我们的程序会逐个消除标记,并使用安全过滤器检查生成的子序列。我们的安全性证书保证在一定程度上,不会由于对抗攻击而导致有害提示被误标为安全。我们以两种方式实现安全过滤器,使用Llama 2和DistilBERT,并对比了两种情况下消除并检查的性能。我们防御了三种攻击模式:i)对抗后缀,其中在有害提示的末尾附加一个对抗序列;ii)对抗插入,其中在提示的中间任意位置插入对抗序列;iii)对抗渗透,其中在提示的任意位置插入对抗标记,不一定作为一个连续的块。我们的实验结果表明,此程序可以在保持对安全提示良好实证性能的同时,获得对有害提示的强大认证安全保证。此外,我们提出了三种高效的实证防御方法:i)RandEC,一种随机子采样版本的消除并检查;ii)GreedyEC,贪婪地消除最大化有害类别softmax评分的标记;iii)GradEC,使用梯度信息优化消除的标记。我们展示了它们在Greedy Coordinate Gradient (GCG)攻击算法生成的对抗提示中的有效性。我们的实验代码可在 https://github.com/aounon/certified-llm-safety 获取。
arXiv:2308.14536v2 宣告类型: 替换交叉
摘要:人们长期以来希望有一个能够帮助处理现实生活情况的对话系统,而最近大型语言模型(LLMs)的进步正使这一理念变得越来越接近现实。尽管LLMs在性能上通常令人印象深刻,但在需要专家知识的实际场景中的有效性仍然不明确。人们认为LLMs在教育领域具有最大的潜力和价值,尤其是在开发基于人工智能(AI)的虚拟教师方面,这些虚拟教师能够促进语言学习。我们的重点是评估LLMs在教育领域的有效性,特别是涵盖语音学、音系学和二语习得的口语语言学习领域。我们引入了一个新的多项选择题数据集,以评估LLMs在上述场景中的有效性,包括口语语言知识的理解与应用。此外,我们研究了各种提示技术的影响,例如零样本和少数样本方法(在问题前添加问题-答案示例)、思维链(CoT,逐步思考)、领域内的示例和外部工具(Google、Wikipedia)。我们使用这些方法对流行的大规模语言模型(20种不同的模型)进行了大规模评估。与零样本基线相比,我们实现了显著的性能改进(GPT-3.5,49.1% -> 63.1%;LLaMA2-70B-Chat,42.2% -> 48.6%)。我们发现,不同大小的模型在语音学、音系学和二语习得概念的理解方面表现出色,但在解决实际问题的推理方面存在局限性。此外,我们还探讨了初步发现的对话通信。
arXiv:2302.10184v2 宣告类型: replace-cross
摘要: 我们提出了注意力启发的数值求解器(AttNS),这是一种简洁的方法,有助于解决由于数据有限而导致的AI-Hybrid数值求解器在解微分方程时面临的泛化和鲁棒性问题。AttNS 受 Residual Neural Networks (ResNet) 中注意力模块的有效性启发,这些模块增强了传统深度学习任务的模型泛化能力和鲁棒性。基于 ResNet 的动力系统视角,我们无缝地将注意力机制融入了针对解微分方程特点设计的数值方法中。在从高维问题到混沌系统的一系列基准测试中,结果表明,AttNS 在提高各种数值求解器性能方面具有显著效果,无需复杂的模型设计。最后,我们从实验和理论两个方面分析了 AttNS,证明了其在确保求解器收敛的同时,能够实现强大的泛化能力和鲁棒性。这包括与其他先进技术相比,使用较少的数据即可达到相似的泛化误差,并且在解微分方程时更好地防止数值爆炸问题。
arXiv:2110.13103v3 公告类型: replace-cross
摘要:几种聚类方法(例如,归一化切分和比率切分)通过除以与聚类相关的因子(例如,聚类的大小或度)来划分最小切分代价函数,以此来获得更均衡的划分。与此相反,我们研究将这种正则化添加到原始代价函数中。我们首先考虑正则化项是聚类大小平方和的情况,然后将其推广到对等相似性的自适应正则化。这导致了对对等相似性的自适应调整,可能会使其中的一些变为负值。然后,我们研究了这种方法与相关聚类的联系,并提出了一个高效的局部搜索优化算法,该算法具有快速的理论收敛率以解决新的聚类问题。接下来,我们在一些常见的聚类方法中研究了对等相似性的调整,并通过在不同数据集上的广泛实验展示了该方法的优越性能。
arXiv:2010.08891v2 公告类型: replace-cross
摘要:我们研究了一种基于优化解决部分表示的MDP的方法,这些MDP是从静态经验数据集中推导出来的。这种方法可以在任何学习表示的基础上应用,并有可能轻松支持多种解决方案目标以及在环境和目标变化时的零样本调整。我们的主要贡献是引入了深度平均带成本MDP(DAC-MDP)并研究了其在离线强化学习中的解法。DAC-MDP是一种非参数模型,可以利用深度表示,并通过引入利用模型中未充分表示的部分的成本来应对数据有限的问题。理论上,我们展示了使DAC-MDP解的性能下界化的条件。我们还在包括基于图像的观测的多个环境中研究了其经验行为。总体而言,实验结果表明,该框架在实践中可以有效工作,并能处理大规模复杂的离线强化学习问题。
arXiv:2501.02770v2 通知类型: 替换
摘要: 本文提出了一种新颖的框架,用于在有限通信范围内解决多智能体路径规划问题,其中所有智能体必须与其他团队成员保持连接的通信通道。许多现有的多智能体路径规划方法(例如,领导者-跟随者编队)通过按固定顺序一次规划一个智能体来克服在该领域规划中的计算挑战。然而,在固定领导者-跟随者方法可能会在规划过程中卡住,限制了它们在密集杂乱环境中的实际应用价值。为克服这一限制,我们开发了动态领导多智能体路径规划,允许在路径规划过程中,在无法取得进展时动态重新选择领导者。实验表明,该框架的高效性,能够在五种环境类型中处理多达25个智能体,并且成功率超过90%,而基线方法在这种环境下通常会失败。
arXiv:2412.17920v2 宣告类型: 替换
摘要: 模拟在自动驾驶的安全评估中至关重要,尤其是在捕捉复杂的互动行为方面。然而,在长尾情况下生成真实且可控的交通场景仍然是一个重大挑战。现有的生成模型在用户定义的可控性和现实性约束之间存在冲突目标,这种冲突在安全关键的情境中尤为突出。在本文中,我们引入了因果组成扩散模型(CCDiff),这是一种基于结构的扩散框架,用于解决这些挑战。我们首先将可控且现实的闭环模拟的学习形式化为一个有约束的优化问题。然后,CCDiff 在最大化可控性的同时遵循现实性,通过自动识别和注入因果结构直接进入扩散过程,提供结构化的指导,以增强现实性和可控性。通过在基准数据集和闭环模拟器上的严格评估,CCDiff 在生成真实且用户更喜欢的轨迹方面显著优于最先进的方法。我们的结果表明,CCDiff 在提取和利用因果结构方面表现出有效性,并且基于关键指标(如碰撞率、离路线率、FDE 和舒适度)显示闭环性能的提高。