我们提出了一种基于变分推理框架的生成式建模方法,用于无似然模拟推断。该方法利用变分自编码器中的潜在变量来有效估计随机模拟产生的复杂后验分布。我们探索了该方法的两种变体,它们的区别在于对先验分布的处理方式。第一种模型使用多元先验网络根据观测数据调整先验,增强了跨各种后验查询的泛化能力。相比之下,第二种模型使用标准高斯先验,在提供简单性的同时仍然有效地捕获复杂的后验分布。我们在已建立的基准问题上证明了这些模型的有效性,取得了与基于流的方法相当的结果,同时保持了计算效率和可扩展性。
生成式预训练Transformer(GPT)通过大规模扩展模型参数在各个领域都展现出了卓越的性能。最近的一些研究观察到Transformer块之间存在冗余,并通过对不重要块进行结构化剪枝来开发压缩方法。然而,这种直接的消除方法总是会造成不可逆的性能下降。在本文中,我们提出了一种名为FuseGPT的新方法,该方法可以回收被剪枝的Transformer块以进一步恢复模型性能。首先,我们引入了一种新的重要性检测指标——宏观影响力(MI),通过计算移除每个Transformer块后其信息损失来检测每个Transformer块的长期影响。然后,我们提出了组层融合方法,该方法采用不重要块中各层的参数,并将它们注入到相邻块内部的对应层中。融合并非一次性完成,而是通过轻量级的组层微调进行迭代参数更新。具体来说,这些注入的参数是冻结的,但与可学习的秩分解矩阵加权,以减少微调过程中的开销。我们的方法不仅适用于大型语言模型,也适用于大型多模态模型。实验表明,通过使用适量的数据,FuseGPT在困惑度和零样本任务性能方面均优于以往的工作。
大型语言模型 (LLM) 在自然语言处理任务上的强大性能引发了对其在代码生成中应用的广泛讨论。最近的研究表明,多种采样方法可以提高初始代码生成的准确性,或者可以使用程序修复方法来改进代码。然而,这些方法受限于LLM的低效率和有限的推理能力。在这项工作中,我们提出了一种LLM编程工作流程 (LPW),旨在在一个结构化的两阶段工作流程中改进初始代码生成和后续改进。具体来说,在解决方案生成阶段,LLM首先概述一个解决方案计划,将问题分解成可管理的子问题,然后通过可见的测试用例验证生成的解决方案计划。随后,在代码实现阶段,LLM根据解决方案计划及其验证初步起草代码。如果生成的代码未能通过可见测试,则计划验证将作为预期的自然语言解决方案,为纠正错误的改进过程提供信息。我们进一步介绍了SLPW,它是LPW的一种采样变体,它最初生成多个解决方案计划和计划验证,为每个计划及其验证生成一个程序,并在必要时改进每个程序,直到一个程序成功通过可见测试。与各种现有LLM上的最先进方法相比,我们的实验结果表明,LPW在已建立的文本到代码生成基准测试中将Pass@1准确率提高了高达16.4%,尤其是在具有挑战性的基准测试中,改进幅度约为10%。此外,SLPW在各种基准测试中比LPW提高了高达5.6%,并在各种基准测试中取得了新的最先进的Pass@1准确率,例如,在HumanEval上达到98.2%,在MBPP上达到84.8%,在APPS上达到64.0%,在CodeContest上达到35.3%,使用GPT-4o作为主干模型。
本文介绍了安全可靠大型语言模型(LLM)全球挑战赛,这是一项由新加坡人工智能(AISG)和网络安全研发项目办公室(CRPO)发起的开创性倡议,旨在促进针对自动化越狱攻击的高级防御机制的开发。随着LLM在医疗、金融和公共管理等关键领域的日益融合,确保这些模型能够抵御对抗性攻击对于防止滥用和维护道德标准至关重要。此次竞赛侧重于两个不同的赛道,旨在评估和增强LLM安全框架的稳健性。赛道1的任务是让参与者开发自动化方法来探测LLM漏洞,诱导其产生不良反应,有效测试LLM现有安全协议的极限。参与者面临的挑战是设计出能够绕过各种场景中内容防护的技术,从攻击性语言到虚假信息和非法活动。通过这一过程,赛道1旨在加深对LLM漏洞的理解,并为创建更强大的模型提供见解。
大型语言模型(LLM)在人工智能领域取得了显著进展,展现了其与人类互动并通过信息传播影响人类认知的能力。然而,最近的研究揭示了这些LLM中固有的偏差问题,这是一个需要关注的关键问题。我们的研究深入探讨了在增强LLM时协调准确性和公平性的复杂挑战。虽然提高准确性确实可以增强LLM的整体性能,但它往往是以牺牲公平性为代价的。过度强调某一指标的优化必然会导致另一指标的显著下降。这强调了在LLM的设计和优化阶段需要考虑多种因素的必要性。因此,我们提倡将LLM训练过程重新制定为多目标学习任务。我们的研究表明,多目标进化学习(MOEL)方法为应对这一挑战提供了有前景的途径。我们的MOEL框架能够同时优化准确性和公平性指标,从而产生一组帕累托最优的LLM。总之,我们的研究揭示了LLM中准确性和公平性之间微妙的平衡,这对它们的实际应用越来越重要。通过利用MOEL,我们为构建更公平、更有效的AI技术提供了一条有前景的途径。
大型语言模型(如GPT-4)和视频生成模型(如Sora)的进步,使得世界模型的概念受到了广泛关注,这对于实现通用人工智能至关重要。本综述对世界模型的相关文献进行了全面回顾。通常,世界模型被认为是理解世界当前状态或预测其未来动态的工具。本综述对世界模型进行了系统的分类,强调了两个主要功能:(1)构建内部表征以理解世界的机制;(2)预测未来状态以模拟和指导决策。首先,我们考察这两个类别当前的进展。然后,我们探讨了世界模型在自动驾驶、机器人技术和社会模拟等关键领域的应用,重点关注每个领域如何利用这些方面。最后,我们概述了关键挑战,并对未来的研究方向提供了见解。
大型语言模型(LLM)在下游任务中的有效性通常取决于指令微调,而指令微调严重依赖于训练数据的质量。不幸的是,收集高质量和多样化的数据既昂贵又费时。为了缓解这个问题,我们提出了一种新颖的 Star-Agents 框架,该框架通过多代理协作和评估来自动增强跨数据集的数据质量。该框架采用三管齐下的策略。它最初通过定制的采样方法使用多个 LLM 代理生成多样化的指令数据。随后,生成的数
据将使用双模型方法进行严格评估,该方法评估难度和质量。最后,上述过程在一个动态细化阶段中发展,其中优先考虑更有效的LLM,从而提高整体数据质量。我们的实证研究,包括使用 Pythia 和 LLaMA 等模型进行的指令微调实验,证明了该框架的有效性。优化的数据集取得了实质性的改进,平均提高了 12%,并且在特定指标上取得了显著的增益,例如 Fermi 提高了 40%,这在 MT-bench、Vicuna bench 和 WizardLM 测试集等基准测试中得到了证明。
大型语言模型(LLM)的快速发展及其模拟人类认知和行为的能力,催生了基于LLM的框架和工具。这些框架和工具的评估和应用都基于其执行传统上由人类执行的任务的能力,即那些涉及认知、决策和社会互动能力的任务。本综述全面考察了这种以人为中心的LLM能力,重点关注其在个体任务(LLM充当单个人的替代者)和集体任务(多个LLM协调以模拟群体动态)中的表现。我们首先评估LLM在推理、感知和社会认知等关键领域的 competence,将其能力与类人的技能进行比较。然后,我们探讨LLM在行为科学、政治学和社会学等以人为中心的领域的实际应用,评估其在复制人类行为和互动方面的有效性。最后,我们确定了挑战和未来的研究方向,例如提高LLM的适应性、情商和文化敏感性,同时解决固有的偏差并加强人机协作框架。本综述旨在从以人为中心的视角提供对LLM的基础性理解,深入了解其当前能力和未来发展的潜力。
能够建模长距离依赖关系的循环神经网络 (RNN) 广泛应用于各种语音任务,例如关键词识别 (KWS) 和语音增强 (SE)。由于低资源设备的功率和内存限制,高效的 RNN 模型对于实际应用的需求迫在眉睫。本文提出了一种高效的 RNN 架构 GhostRNN,它使用廉价的操作减少了隐藏状态的冗余。特别是,我们观察到在训练好的 RNN 模型中,隐藏状态的部分维度与其他维度相似,这表明特定 RNN 中存在冗余。为了减少冗余并降低计算成本,我们建议首先生成少量内在状态,然后应用廉价的操作,基于内在状态生成幻影状态。在 KWS 和 SE 任务上的实验表明,所提出的 GhostRNN 在保持性能相似的情况下,显著降低了内存使用量 (~40%) 和计算成本。
大型语言模型 (LLM) 的卓越能力使其在现实世界的医疗应用中越来越具有吸引力。然而,在医疗应用中使用 LLM 的风险尚未得到系统性地描述。我们提出了五个确保医疗 AI 安全可靠的关键原则:真实性、弹性、公平性、稳健性和隐私性,以及十个具体方面。在此综合框架下,我们引入了一个包含 1000 个专家验证问题的全新 MedGuard 基准。我们对 11 个常用 LLM 的评估表明,目前的语言模型,无论其安全性对齐机制如何,在大多数基准测试中的表现普遍较差,尤其与人类医生的高水平表现相比。尽管最近的报告表明,像 ChatGPT 这样的高级 LLM 可以在各种医疗任务中匹配甚至超越人类的表现,但这项研究强调了重大的安全差距,突出了人类监督和实施 AI 安全防护措施的迫切需要。