背景:软件质量保证 (SQA) 是软件工程中至关重要的一部分,旨在向利益相关者保证软件产品在发布后按预期运行。机器学习 (ML) 已被证明能够提升 SQA 活动,并有助于开发高质量的软件系统。在此背景下,因果推理作为一种超越纯粹数据驱动方法的策略,通过利用因果关系来制定更有效的 SQA 策略,正受到越来越多的关注。目标:为了帮助研究人员进入这一研究领域,本文对因果推理在 SQA 活动中的应用进行了全面而深入的概述,并确定了应用空间、主要挑战和研究机会。方法:对因果推理在 SQA 方面的科学文献进行了系统性综述。该研究根据软件工程二级研究的既定指南,发现了 86 篇文章,并对其进行了分类和分析。结果:结果突出了因果推理在 SQA 中的主要应用领域、所用主要方法以及所提解决方案的成熟度。故障定位是因果推理应用最广泛的活动,尤其是在 Web 服务/微服务领域,但测试等其他任务也正在迅速普及。因果推断和因果发现都被利用,其中 Pearl 的因果图形表示法因其直观性而成为首选。支持其应用的工具正在迅速出现——其中大多数是在 2021 年之后出现的。结论:研究结果表明,因果推理对于 SQA 任务而言是一种有价值的手段,特别是在 V&V、演化和维护阶段,以确保可靠性,而它在... 阶段尚未得到充分利用。
对齐的大语言模型 (LLM) 是安全的,能够识别恶意问题并拒绝回答。然而,内部参数在维护这种安全性方面的作用尚未得到充分理解,此外,这些模型在使用非恶意后门或正常数据微调时,可能会出现安全性能下降。为了解决这些挑战,我们的工作从参数层面揭示了对齐 LLM 中安全性的机制,识别出模型中间一小部分连续层,这些层对于区分恶意查询和正常查询至关重要,我们将其称为“安全层”。我们首先通过分析模型内部层中输入向量的变化来确认这些安全层的存在。此外,我们利用过度拒绝现象和参数缩放分析来精确定位安全层。基于这些发现,我们提出了一种新的微调方法,即安全部分参数微调 (SPPFT),该方法在微调过程中固定安全层的梯度,以解决安全性能下降问题。我们的实验表明,与完全微调相比,该方法可以显著保留 LLM 的安全性,同时保持性能并减少计算资源。
深度学习方法在时间序列领域日益普及,激发了人们对可解释性研究的兴趣,其中包括反事实(CF)方法。CF 方法旨在识别实例中的最小变化,以改变模型预测。尽管研究广泛,但目前尚无工作对时间序列领域中的 CF 方法进行基准测试。此外,由于数据集数量有限和指标不足,文献中报道的结果并不确定。在本研究中,我们重新设计了定量指标,以准确地捕捉 CF 中的理想特征。我们专门重新设计了稀疏性和合理性的指标,并引入了一个新的指标来衡量一致性。结合有效性、生成时间和邻近性,我们形成了一个全面的指标集。我们系统地对 20 个单变量数据集和 10 个多变量数据集上的 6 种不同的 CF 方法进行了基准测试,并使用了 3 种不同的分类器。结果表明,CF 方法的性能在不同指标和不同模型之间存在差异。最后,我们提供了案例研究和实用指南。
随着多模态大型语言模型 (MLLM) 的发展,由 LLM驱动的视觉代理正日益影响软件界面,特别是那些具有图形用户界面的界面。这项工作介绍了一种新颖的基于 LLM 的多模态代理框架,用于移动设备。该框架能够在移动设备上导航,模拟人类般的交互。我们的代理构建了一个灵活的动作空间,增强了对各种应用的适应性,包括解析器、文本和视觉描述。代理通过两个主要阶段运行:探索和部署。在探索阶段,用户界面元素的功能通过代理驱动的或手动探索记录到一个定制的结构化知识库中。在部署阶段,RAG 技术使从该知识库中高效检索和更新成为可能,从而使代理能够有效且准确地执行任务。这包括跨各种应用程序执行复杂的多步骤操作,从而证明了该框架在处理定制任务工作流程方面的适应性和精确性。我们在各种基准上的实验结果证明了该框架的优越性能,证实了其在现实场景中的有效性。我们的代码将很快开源。
尽管文本到图像生成技术取得了最新进展,但大多数现有方法难以生成包含多个物体和复杂空间关系的 3D 世界图像。为了克服这一局限性,我们引入了一种通用的 AI 系统,名为 MUSES,用于从用户查询生成 3D 可控图像。具体来说,我们的 MUSES 通过开发一个包含三个关键组件的渐进式工作流程来解决这一挑战性任务,包括 (1) 用于 2D 到 3D 布局提升的布局管理器,(2) 用于 3D 物体获取和校准的模型工程师,(3) 用于 3D 到 2D 图像渲染的图像艺术家。通过模仿人类专业人士的协作,这种多模态代理管道通过可解释的整合自上而下的规划和自下而上的生成,有效地自动创建包含 3D 可控物体的图像。此外,我们发现现有基准缺乏对多个物体复杂 3D 空间关系的详细描述。为了填补这一空白,我们进一步构建了一个名为 T2I-3DisBench(3D 图像场景)的新基准,该基准用 50 个详细提示描述了各种 3D 图像场景。大量实验表明,MUSES 在 T2I-CompBench 和 T2I-3DisBench 上都取得了最先进的性能,优于 DALL-E 3 和 Stable Diffusion 3 等最近的强大竞争对手。这些结果表明,MUSES 在连接自然语言、2D 图像生成和 3D 世界方面迈出了重要一步。我们的代码可在以下链接获取:https://github.com/DINGYANB/MUSES。
扩散模型彻底改变了定制的文本到图像生成,使得能够高效地从包含文本描述的个人数据中合成照片。然而,这些进步带来了隐私泄露和未经授权复制艺术作品的风险。以往的研究主要集中于使用提示特定方法生成对抗性示例来保护个人图像,但现有方法的有效性受到其对不同提示的适应能力有限的阻碍。本文提出了一种针对定制扩散模型的提示无关对抗性扰动(PAP)方法。PAP 首先使用拉普拉斯近似法对提示分布进行建模,然后通过最大化基于建模分布的扰动期望来生成提示无关扰动。这种方法有效地解决了提示无关攻击,从而提高了防御稳定性。在面部隐私和艺术风格保护方面的广泛实验表明,与现有技术相比,PAP 具有更好的泛化能力。我们的项目页面位于 https://github.com/vancyland/Prompt-Agnostic-Adversarial-Perturbation-for-Customized-Diffusion-Models.github.io。
基于视觉的机器人策略学习,将视觉输入映射到动作,需要对各种视觉任务进行整体理解,而不仅仅是分类或分割等单一任务。受此启发,我们引入了 Theia,一个用于机器人学习的视觉基础模型,它提取了针对各种视觉任务训练的多个现成的视觉基础模型。Theia 丰富的视觉表示编码了各种视觉知识,增强了下游机器人学习。大量实验表明,Theia 在使用更少的训练数据和更小的模型尺寸的情况下,性能优于其教师模型和先前的机器人学习模型。此外,我们量化了预训练视觉表示的质量,并假设特征范数分布中更高的熵会导致更好的机器人学习性能。代码、模型和演示可在 https://theia.theaiinstitute.com 获得。
使用更大的小批量训练可以提高收敛速度,并能带来更好的性能。然而,由于大型语言模型 (LLM) 对 GPU 内存要求很高,使用大批量训练对它们来说变得不可行。为了解决这个问题,一种有效的方法是找到与更大批量梯度密切匹配的小批量核心集。然而,由于语言数据中来源的高度不平衡性、Adam 优化器的使用以及 LLM 非常大的梯度维度,这种方法对于 LLM 来说变得不可行且无效。在这项工作中,我们通过提出用于训练 LLM 的核心集 (CoLM) 来解决上述挑战。首先,我们证明了通过梯度匹配找到的小批量核心集 w.h.p. 不包含小来源的代表性示例,因此将小来源的所有示例包含在小批量核心集中对于获得最佳性能至关重要。其次,我们通过其历史指数对梯度进行归一化,以找到用于 Adam 训练的小批量核心集。最后,我们利用零阶方法找到最后一个 V 投影矩阵的平滑梯度,并将其稀疏化以保留具有最大归一化梯度幅度的维度。我们将 CoLM 应用于使用 LoRA 在 MathInstruct 和 SuperGLUE 基准测试中微调 Phi-2、Phi-3 和 Zephyr。值得注意的是,CoLM 将微调的内存需求降低了 2 倍,甚至超过了使用 4 倍更大批量进行训练的效果。值得注意的是,CoLM 可以轻松地与现有的内存高效训练方法(例如 LoRA)堆叠。
近期研究表明,相对位置编码在选择性状态空间模型扫描算法中表现良好,而平衡SSM和Attention的架构则提高了算法的效率和有效性,同时专家混合的稀疏激活降低了训练成本。我们研究了在结构化状态空间双重算法中使用不同位置编码的有效性,以及更有效的SSD-Attn内部和外部函数混合方法,并设计了一种更高效的跨域专家混合方法。我们发现相同的矩阵在不同的算法中表现出色,这使我们能够建立一个新的混合稀疏架构:Cheems。与其他混合架构相比,它在语言建模任务中更加高效和有效。
尽管大型语言模型 (LLMs) 在生成功能正确的程序方面取得了巨大成功,但使模型能够生成高效的解决方案并同时确保正确性仍然是一个挑战。此外,在流行的解释型语言(如 Python)中,跨不同硬件规格对代码效率进行基准测试的不可靠性是一个障碍。在本文中,我们提出了 ECCO,一个可重复的基准,用于通过两种范式评估程序效率:基于自然语言 (NL) 的代码生成和基于历史的代码编辑。在 ECCO 上,我们调整并彻底研究了三种最有希望的现有基于 LLM 的方法:上下文学习、带有执行或 NL 反馈的迭代细化以及根据执行和编辑历史进行微调。虽然大多数方法降低了功能正确性并适度提高了程序效率,但我们发现添加执行信息通常有助于维护功能正确性,而 NL 反馈则更多地提高了效率。我们发布我们的基准以支持未来关于基于 LLM 的高效代码生成的进一步研究。