arXiv:2410.08085v3 替换-交叉
摘要:近期将知识图谱(KGs)集成到大型语言模型(LLMs)中的工作已经取得了有望提高推理准确性的改进。然而,当前的基准主要集中在封闭式任务上,未能评估更复杂的现实场景。这一差距也模糊了知识图谱在减轻大型语言模型幻觉问题方面的潜力评估。为了填补这一差距,我们引入了OKGQA,这是一个专门为评估增强知识图谱的大型语言模型在开放式的、现实世界的问题回答场景中的表现的新基准。OKGQA 设计时考虑了不同类型问题的复杂性,并引入了特定的指标来衡量幻觉比例和推理能力的增强。为考虑知识图谱可能存在不同错误水平的情况,我们还提出了 OKGQA-P 的基准变体,以评估在故意扰乱和污染知识图谱的意义和结构后模型的表现。OKGQA 目标在于:(1) 探索知识图谱在开放环境下是否能使大型语言模型更加可信,(2) 进行对比分析以揭示方法设计的启示。我们认为这项研究可以促进一个更全面的表现比较,并鼓励持续改进将知识图谱与大型语言模型集成,以减少幻觉。
arXiv:2410.06846v3 宣告类型: 强替换-交叉
摘要: 近来,Linformer和Mamba等架构已成为transformer的有竞争力的线性时间替代方案。然而,相应的大型预训练模型往往不可用,尤其是在非文本领域。为了解决这一问题,我们提出了一种跨架构逐层蒸馏(CALD)方法,该方法不仅将transformer模型转换为线性时间替代方案,还能将其微调到目标任务。我们还比较了几种引导微调的方法,以最大限度地保留原始模型的所需推理能力。这些方法在目标模型和参数轨迹的使用上有所不同。在一系列关于语言处理、语言建模和语音处理的实证研究中,我们展示了CALD能够有效地恢复原始模型的结果,并表明引导策略有助于结果。提出了几种导致差异的原因。
arXiv:2410.05317v4 宣告类型: replace-cross
摘要:扩散变换器在图像和视频合成方面显示出显著的有效性,但代价是巨大的计算成本。为了解决这个问题,已经引入了特征缓存方法,通过缓存之前时间步的特征并在后续时间步重用这些特征来加速扩散变换器。然而,之前的缓存方法忽略了不同令牌对特征缓存的敏感性不同,对某些令牌的特征缓存可能会比其他令牌对整体生成质量造成10倍以上的破坏。在本文中,我们引入了令牌级别的特征缓存,使我们能够适应性地选择最适合缓存的令牌,并进一步使我们能够在不同类型的神经层和不同深度中应用不同的缓存比例。在PixArt-$\alpha$、OpenSora和DiT上的广泛实验表明,我们的方法在图像和视频生成方面的有效性无需训练要求。例如,在OpenSora和PixArt-$\alpha$上分别实现了2.36倍和1.93倍的加速,生成质量几乎没有下降。
arXiv:2410.03663v3 宣告类型: 更换交叉引用
摘要:虽然推理能力通常在具有数十亿参数的大型语言模型(LLMs)中涌现,但最近的研究更关注通过从商用LLMs的知识蒸馏(KD)来提高较小的开源模型的表现。然而,这些研究中的许多依赖于单一LLM的响应作为黄金理由,这与自然的人类学习过程不同,后者涉及理解正确答案以及错误背后的原因。在本文中,我们介绍了一种新的故障感知蒸馏通过同伴评审的方法(FAIR):1)我们的方法不仅从教师那里获取理由,还会让教师识别并解释学生的错误,提供定制化的教学数据。2)我们设计了一种模拟的教师LLM之间的同伴评审过程,该过程只选择高于接受阈值的生成理由。这减少了教师通过有缺陷的理由猜中的可能性,从而提高教学数据的质量。在数学、常识和逻辑推理任务上的全面实验和分析证明了我们方法的有效性。
arXiv:2409.16824v2 公告类型: replace-cross
摘要:在部分可观测性环境下进行最优决策需要推理环境隐藏状态的不确定性。然而,大多数强化学习架构使用没有内部机制来在其隐藏状态表示中纳入不确定性的时间序列模型,如递归神经网络、确定性状态空间模型和变压器。受强化学习中概率世界模型进展的启发,我们提出了一种独立的卡尔曼滤波层,它在线性状态空间模型中执行封闭形式的高斯推理,并在无模型架构中端对端地训练它以最大化回报。类似高效的线性递归层,卡尔曼滤波层使用并行扫描处理序列数据,其缩放方式与序列长度呈对数关系。通过设计,卡尔曼滤波层可以无缝替换标准无模型架构中的其他递归层,但更重要的是,它们包含一个明确的概率滤波机制来处理潜在状态表示。在各种涉及部分可观测性的任务中进行的实验表明,卡尔曼滤波层在需要进行不确定性推理以做出决策的问题中表现优异,优于其他具有状态的模型。
arXiv:2409.09787v3 宣告类型: replace-cross
摘要:开发一个能够从玻尔兹曼分布中生成独立且同分布(IID)样本的有效采样器是科学研究中的一个关键挑战,例如分子动力学。本文中,我们打算通过学习能量函数而非玻尔兹曼分布采样数据来学习神经采样器。通过学习受噪数据的能量,我们提出了一种基于扩散的采样器——扰能源匹配(Named Energy Matching,NEM),该方法在理论上具有更低的方差和更高的复杂度,相较于相关工作。此外,我们还应用了一种新型的加权技术到NEM中,以在偏差和方差之间实现平衡。我们在2维40高斯混合模型(GMM)和4粒子双阱势(DW-4)上评估了NEM和BNEM。实验结果表明,BNEM能够实现最先进的性能,并且更具鲁棒性。
arXiv:2408.17003v4 安全公告类型: replace-cross
摘要:对齐的大语言模型是安全的,能够识别并拒绝回答恶意问题。然而,内部分布参数在维持这种安全方面的作用尚未被充分理解,此外,这些模型在遭受精细调整攻击时可能会出现安全退化。为了解决这些问题,我们的工作在参数水平上揭示了对齐大语言模型中安全机制背后的原理,识别出模型中部的一小组连续层次,这些层次对于区分恶意查询和正常查询至关重要,被称为“安全层”。我们首先通过分析模型内部层面上输入向量的变化来确认这些安全层的存在。此外,我们利用过度拒绝现象和参数缩放分析,精确地定位这些安全层。基于这些发现,我们提出了一种新的精细调整方法——安全部分参数精细调整(SPPFT),该方法在精细调整过程中固定安全层的梯度,以应对安全退化问题。我们的实验表明,所提出的方法可以在保持性能和减少计算资源需求的同时,显著地保存大语言模型的安全性。
arXiv:2408.10604v2 宣告类型: replace-cross
摘要: 大多数现有的问答数据集(QuADs)主要关注高资源语言中的基于事实的短语境问答。然而,这类数据集在低资源语言中的应用范围仍然有限,只有少数几项工作专注于基于事实的QuADs,并且没有任何关于非基于事实的QuADs的工作。因此,本文提出了MuNfQuAD,这是一个包含非基于事实的问答的多语言QuAD数据集。它利用来自BBC新闻文章的疑问性副标题作为问题,并利用相应的段落作为银标签答案。该数据集包括超过578,000个跨38种语言的问答对,涵盖了多种低资源语言,并且是迄今为止最大的多语言问答数据集。基于对MuNfQuAD中790个问答对(金标准集)的手动注释,我们发现98%的问题可以用其对应的银标签答案来回答。我们微调的Answer Paragraph Selection(APS)模型优于基线模型。APS模型在MuNfQuAD测试集和金标准集上的准确率分别为80%和72%,宏F1分别为72%和66%。此外,即使在银标签上进行了微调,APS模型也能有效地推广到金标准集中的一种特定语言。我们还观察到,微调的APS模型对于减少问题的上下文是有益的。这些发现表明,该资源将为问答研究社区做出有价值的贡献。
arXiv:2408.01689v3 宣告类型: 替换-交叉
摘要:近年来,生成模型在取得显著进步的同时,也引发了隐私泄露和偏见等担忧。机器不可学习性作为一种可行的解决方案逐渐浮现,旨在从模型中移除特定的训练数据,例如包含私人信息和偏见的数据。本文探讨了图像到图像(I2I)生成模型中的机器不可学习问题。以往的研究主要将其视为单一目标优化问题,提供了单一解决方案,从而忽略了用户对完全不可学习与模型实用性之间权衡的不同期望。为解决这一问题,我们提出了一种可控不可学习框架,使用控制系数 $\varepsilon$ 来控制这种权衡。我们将I2I生成模型的不可学习问题重新表述为一个 $\varepsilon$ 约束优化问题,并使用基于梯度的方法来找到去学习边界的最优解。这些边界定义了控制系数的有效范围。在这一范围内,每个生成的解决方案理论上都能保证帕累托最优性。我们还分析了在各种控制函数下的框架收敛速度。在三个主流I2I模型的两个基准数据集上的广泛实验表明了我们可控的不可学习框架的有效性。
arXiv:2408.00540v2 宣布类型: replace-cross
摘要:人工智能(AI)与现有的物联网(IoT)结合,使各经济领域实现了更加自主的操作。虽然这种范式的转变带来了能源消耗的增加,但难以用传统的度量标准量化这类系统的端到端能源消耗,因为这些标准要么集中在通信、计算基础设施或模型开发上。为了解决这一问题,我们提出了一种新的度量标准,即AI生命周期能源成本(eCAL)。eCAL通过分析各个组件的数据收集和处理复杂性,捕获AI增强型无线系统在整个架构组件和生命周期中的能源消耗,并推导出整体和每比特的能源消耗。我们表明,模型越优秀且使用频率越高,其推理过程就越节能。例如,对于一种人工智能物联网(AIoT)配置,100次推理的eCAL是1000次推理的2.73倍。此外,我们开发了一个模块化开源模拟工具,使研究人员、实践者和工程师能够使用各种配置和多种系统计算端到端的能源成本,确保其能够适应多种应用场景。