非晶态分子固体由于其机械柔性和溶液可加工性,为无机半导体提供了一种很有前景的替代方案。这些材料的堆积结构在决定其电子和传输性质方面起着至关重要的作用,而这些性质对于提高有机太阳能电池(OSC)等器件的效率至关重要。然而,从计算角度获得这些光电性质需要进行分子动力学 (MD) 模拟以生成构象系综,这一过程由于涉及的系统规模庞大而可能在计算上非常昂贵。最近的研究集中在使用生成模型,特别是基于流的模型作为玻尔兹曼生成器,以提高 MD 采样的效率。在这项工作中,我们开发了一种双尺度流匹配方法,将训练和推断分为粗粒化和全原子阶段,提高了标准流匹配采样器的精度和效率。我们在通过 MD 模拟获得的 Y6 分子簇数据集上证明了该方法的有效性,并将其效率和准确性与单尺度流匹配方法进行了基准测试。
在许多自然语言处理任务中,大型语言模型(LLM)已经取代了传统方法。然而,在命名实体识别(NER)中,现有的基于 LLM 的方法......
音频基础模型在各种任务中取得的成功日益增长,这使得人们越来越需要提高可解释性,以便更好地理解其错综复杂的决策过程。现有的方法主要集中在通过根据输入空间中元素对最终决策的影响来确定其重要性,从而解释这些模型。在本文中,我们介绍了一种新颖的音频解释方法,该方法利用了音频基础模型的生成能力。我们的方法通过整合已建立的特征归因技术来识别此空间中的重要特征,从而利用这些模型中嵌入空间的内在表示能力。然后,该方法通过优先考虑最重要的特征来生成可听的音频解释。通过对标准数据集(包括关键词识别和语音情绪识别)进行严格的基准测试,我们的模型证明了其在生成音频解释方面的有效性。
大型语言模型 (LLM) 在众多自然语言处理 (NLP) 任务中显著提升了性能。然而,它们在知识图谱 (KG) 中的应用仍未得到充分探索,知识图谱以三元组的形式描述事实,并能最大程度地减少幻觉。本文研究了将 LLM 与 KG 结合的可能性,并引入了一种专门的 KG 语言 (KGL),其中一个句子精确地由一个实体名词、一个关系动词组成,并以另一个实体名词结尾。尽管 KGL 的词汇对 LLM 来说并不熟悉,我们通过定制的词典和示例句子来促进其学习,并通过实时 KG 上下文检索和 KGL 词汇嵌入增强来增强上下文理解。我们的结果表明,LLM 能够流畅地使用 KGL,与传统的 KG 嵌入方法相比,在 KG 补全方面的错误率大幅降低。此外,我们增强的 LLM 在从初始实体生成准确的三字句子以及从 KG 中解释新的未见词汇方面表现出非凡的能力。
强化学习(RL)应用于医疗保健可能会导致不安全的医疗决策和治疗,例如剂量过大或突然改变,这通常是由于代理忽略了常识约束。因此,约束强化学习 (CRL) 是安全决策的自然选择。然而,在医疗保健中指定精确的成本函数本质上是困难的。最近的逆约束强化学习 (ICRL) 是一种很有前景的方法,它从专家演示中推断约束。ICRL 算法在交互式环境中对马尔可夫决策进行建模。这些设置与医疗保健中决策系统的实际要求不一致,在医疗保健中,决策依赖于离线数据集中记录的历史治疗。为了解决这些问题,我们提出了约束转换器 (CT)。具体来说,1) 我们利用因果注意机制将历史决策和观察纳入约束建模,同时使用非马尔可夫层对加权约束进行建模,以捕获关键状态。2) 使用生成式世界模型来执行探索性数据增强,使离线 RL 方法能够模拟不安全的决策序列。在多个医疗场景中,实证结果表明 CT 可以捕获不安全状态并实现接近较低死亡率的策略,从而降低不安全行为发生的概率。
将预训练的稠密语言模型升级为稀疏专家混合模型 (MoE) 是提高已训练模型容量的一种有效方法。然而,大规模升级的最佳技术仍不清楚。在本研究中,我们对十亿参数规模语言模型的升级方法和超参数进行了广泛研究。我们提出了一种新颖的“虚拟组”初始化方案和权重缩放方法,以实现对细粒度 MoE 架构的升级。通过消融实验,我们发现升级优于继续训练稠密模型。此外,我们还发现 softmax-then-topK 专家路由优于 topK-then-softmax 方法,并且更高粒度的 MoE 可以帮助提高准确性。最后,我们在 1T 个 token 上对 Nemotron-4 15B 模型进行了升级,并将它与在相同 1T 个 token 上持续训练的相同模型版本进行了比较:持续训练的模型在 MMLU 上取得了 65.3% 的成绩,而升级后的模型则取得了 67.6% 的成绩。我们的结果为有效利用升级构建 MoE 语言模型提供了见解和最佳实践。
利用上下文学习(ICL)的大型语言模型(LLM)在各种任务中的少样本学习中设定了新的基准,无需针对特定任务进行微调。然而,大量研究表明,ICL 的有效性受演示的选择和排序的影响很大。考虑到演示选择在 ICL 中的关键作用,我们引入了受数据 Shapley 估值定理启发的 DemoShapley。这种方法评估了单个演示实例的影响,区分了那些对性能有积极贡献的实例和那些可能阻碍性能的实例。我们的研究结果表明,DemoShapley 不仅提高了模型在准确性和公平性方面的性能,而且还将查询从与上下文演示不同的领域推广,突出了其在优化 ICL 演示选择方面的多功能性和有效性。最后但并非最不重要的一点是,DemoShapley 表明它能够帮助识别演示集中存在的噪声数据。
大型语言模型(LLM)执行复杂指令的能力对其现实世界应用至关重要。然而,最近的一些研究表明,LLM在处理具有挑战性的指令方面存在困难。本文提出了一种名为进化对比蒸馏(ECD)的新方法,用于生成高质量的合成偏好数据,旨在增强语言模型的复杂指令遵循能力。ECD生成的数据专门说明了成功遵循一组复杂指令的响应与高质量但存在细微错误的响应之间的差异。这是通过提示LLM逐步将简单的指令演变为更复杂的指令来实现的。当指令的复杂度增加时,对原始指令的原始成功响应成为新指令的“硬负”响应,它基本上满足了新指令的要求,但仅仅错失了一两个要求。通过将一个好的响应与这种硬负响应配对,并采用对比学习算法(如DPO),我们提高了语言模型遵循复杂指令的能力。从经验上看,我们观察到我们的方法产生了一个7B模型,该模型超过了当前SOTA 7B模型的复杂指令遵循性能,甚至与开源70B模型相比也具有竞争力。
训练后量化(PTQ)是一种压缩大型语言模型(LLM)的有效技术。虽然许多研究集中在量化权重和激活,但激活量化后保持 LLM 准确性仍然是一个挑战。为了研究主要原因,我们将线性代数中的核概念扩展到量化函数,以定义一个新术语“量化核”,它指的是被量化为零的激活中的元素集。通过对量化核的定量分析,我们发现这些元素对于保持量化 LLM 的准确性至关重要。随着量化核的减少,量化 LLM 的精度提高。如果量化核比例保持在 OPT 模型的 19% 以下和 LLaMA 模型的 1% 以下,将激活量化为 INT8 所产生的精度损失将可以忽略不计。受开发具有小量化核的量化方法的目标驱动,我们提出了 CrossQuant:一种简单而有效的激活量化方法。CrossQuant 使用行和列方向的绝对最大向量对元素进行交叉量化,对于 OPT 模型实现约 16% 的量化核,对于 LLaMA 模型实现小于 0.1% 的量化核。对参数范围从 6.7B 到 70B 的 LLM(LLaMA、OPT)的实验结果表明,CrossQuant 提高或保持了语言建模、零样本和少样本任务中的困惑度和准确性。
因素是法律分析和法律推理计算模型的基础组成部分。这些基于因素的表示使律师、法官以及人工智能与法律研究人员能够对法律案件进行推理。本文介绍了一种利用大型语言模型 (LLMs) 来发现有效代表法律领域因素列表的方法。我们的方法将原始法院意见作为输入,并生成一组因素及其相关定义。我们证明,半自动化方法在仅需最少的人工干预的情况下,能够生成能够以中等成功率预测案件结果的因素表示,尽管目前尚未达到专家定义的因素的水平。