LLM2D

arXiv 论文列表

大型语言模型(LLMs)在利用多样化的知识来源方面展示了显著的进展。本研究调查了九种广泛使用的LLMs在知识一致性场景下回答开放性问题时如何在本地上下文和全局参数之间分配知识。我们引入了一个新数据集,WikiAtomic,并系统地变化上下文大小,以分析LLMs在知识一致性场景下如何优先使用和利用提供的信息以及其参数化知识。此外,我们还研究了它们在不同上下文大小下产生幻觉的倾向。我们的研究结果揭示了模型之间的一致模式,包括对上下文(约70%)和参数化知识(约30%)的持续依赖,以及随着上下文增加,幻觉现象的减少。这些见解突显了更有效的上下文组织和开发更确定性使用输入的模型对于稳健性能的重要性。
发布时间: 9/24/2024
查看原文
逆约束强化学习(ICRL)是从专家代理的演示数据中推断其遵循的隐性约束的任务。作为一个新兴的研究主题,ICRL近年来受到了相当大的关注。本文对ICRL的最新进展进行了分类综述,旨在为机器学习研究人员和实践者,以及希望理解ICRL定义、进展和重要挑战的初学者提供全面的参考。我们首先正式定义了问题,并概述了促进在各种场景下进行约束推断的算法框架。这些场景包括确定性或随机环境、有限演示的环境和多代理环境。对于每个背景,我们阐明了关键挑战,并介绍了一系列基本方法来解决这些问题。该综述涵盖了用于评估ICRL代理的离散、虚拟和现实环境。我们还深入探讨了ICRL最相关的应用,如自动驾驶、机器人控制和体育分析。为了激励持续的研究,我们在总结中讨论了ICRL中一些关键的未解决问题,这些问题可以有效地在理论理解与实际工业应用之间架起桥梁。
发布时间: 9/24/2024
查看原文
大规模语言模型(LLMs)的快速进步显著提升了自然语言处理能力,推动了能够处理和理解语音及音频输入的AudioLLMs的发展。现有的AudioLLMs通常结合了预训练的音频编码器和预训练的LLM,并在特定音频任务上进行微调。然而,预训练的音频编码器在捕捉新任务和数据集特征方面能力有限。为了解决这一问题,我们提出在AudioLLM框架中引入“弱”编码器的混合(MoWE)。MoWE通过在基础编码器上补充一组相对轻量的编码器,根据音频输入有选择地激活这些编码器,从而增强特征提取能力,而不会显著增加模型的大小。我们的实证结果表明,MoWE有效提升了多任务性能,拓宽了AudioLLMs在更多样化音频任务中的适用性。
发布时间: 9/24/2024
查看原文
深度学习模型的扩展已被证明对提高机器学习 (ML) 模型的智能性非常有效,尤其是对于行业推荐模型和大型语言模型来说。大规模分布式 ML 系统和算法的共同设计(以最大化训练性能)在其成功中起着关键作用。随着规模的扩大,共同设计的超参数数量迅速增长,这给实际找到系统性能最大化的最优设置带来了挑战。在本文中,我们提出了 CubicML,它使用 ML 自动优化大规模分布式 ML 系统的训练性能。在 CubicML 中,我们使用一个 ML 模型作为代理来预测训练性能,以提高搜索效率和性能建模的灵活性。我们证明了 CubicML 可以有效地优化 Meta 内部广告推荐模型(73 亿参数)和大型语言模型(高达 4050 亿参数)的训练速度。
发布时间: 9/24/2024
查看原文
情感分类(SC)通常面临资源匮乏的挑战,例如特定领域的上下文、不平衡的标签分布和少样本场景。扩散语言模型(LM)在文本数据增强(DA)方面的潜力尚未被探索,此外,文本DA方法在新样本的多样性和一致性之间难以平衡。大多数DA方法要么进行逻辑修改,要么使用语言模型重新表述原始序列中不太重要的标记。在SC的背景下,强烈的情感标记可能对整个序列的情感起关键作用。因此,与重新表述不太重要的上下文相反,我们提出了DiffusionCLS,以利用扩散LM捕捉领域内知识并通过重建与标签相关的强标记生成伪样本。这种方法确保了一致性和多样性之间的平衡,避免引入噪声并增强数据集的关键特征。DiffusionCLS还包含一个抗噪训练目标,帮助模型泛化。实验表明,我们的方法在各种资源匮乏的场景中,包括特定领域和通用领域问题上都有效。消融研究证实了我们框架模块的有效性,且可视化研究突出了最佳部署条件,强化了我们的结论。
发布时间: 9/24/2024
查看原文
掩蔽扩散模型(MDMs)因其在离散数据生成建模中的优越性能而成为一个热门研究课题,并且在语言建模任务中与自回归模型(ARMs)竞争。最近简化掩蔽扩散框架的努力进一步使其与连续空间扩散模型对齐,并提出了更为系统的训练和采样方案。然而,在本文中,我们揭示了MDMs的训练和采样理论上是无需时间变量的,这个时间变量被认为是扩散模型的关键特征,而实际上与掩蔽模型等价。在采样方面,我们提出的首次命中采样器(FHS)表明,这种采样方法在理论上等同于MDMs的原始生成过程,同时显著减轻了耗时的类别采样,并实现了20倍的加速。此外,我们的研究对MDMs是否真的能超越ARMs提出了质疑。我们首次发现了一个潜在的数值问题,即使使用常用的32位浮点精度,也会导致不准确的类别采样。我们表明,这个数值问题在理论和实验证据上降低了有效温度,导致标记多样性减少,使得之前仅通过不完整的生成困惑度指标评估生成质量的结果有些不公正。
发布时间: 9/24/2024
查看原文
在强化学习(RL)任务中,要在复杂的自定义环境和多重需求下实现奖励函数的有效设计和改进,面临着相当大的挑战。在本文中,我们提出了ERFSL,一种使用大型语言模型(LLMs)进行高效奖励函数搜索的方法。这使得LLMs能够成为有效的白盒搜索器,并突显其先进的语义理解能力。具体而言,我们为每个明确的用户需求生成奖励组件,并使用奖励评论员来识别正确的代码形式。然后,LLMs为奖励组件分配权重,以平衡其值,并通过灵活采用方向突变和交叉策略(类似于遗传算法)基于训练日志分析器提供的上下文,迭代地调整这些权重,避免模糊和冗余的调整。我们将该框架应用于一个水下数据收集的RL任务中,无需直接的人类反馈或奖励示例(零样本学习)。奖励评论员成功地通过每个需求仅一个反馈实例纠正了奖励代码,有效地防止了不可修复的错误。权重的初始化使得在无需搜索权重的情况下,能够在帕累托解集内获得不同的奖励函数。即使在权重偏差500倍的情况下,平均只需5.2次迭代即可满足用户需求。ERFSL在大多数利用GPT-4o mini的提示下也能很好地工作,因为我们将权重搜索过程分解,以降低对数值和长上下文理解能力的要求。
发布时间: 9/24/2024
查看原文
我们引入了 SHADOW,这是一种经过微调的语言模型,使用关联演绎推理在中间任务上进行训练,并通过 Wikidata 三元组补全来衡量其在知识库构建任务中的表现。我们在 LM-KBC 2024 挑战赛中评估了 SHADOW,结果显示其 F1 分数为 68.72%,比基线解决方案高出 20%。
发布时间: 9/24/2024
查看原文
我们解决了针对输入图像几何变换(包括旋转、缩放、剪切和平移)验证神经网络的问题。所提出的方法通过采样和线性近似结合分支定界的Lipschitz优化,计算像素值的可证明正确的分段线性约束。与当前最先进的方法相比,该方法获得了可证明的更紧密的扰动区域过度近似。我们报告了在MNIST和CIFAR10上的一套全面验证基准测试中的实验结果。实验表明,我们提出的实现方法比现有方法解决了多达32%的验证案例。
发布时间: 9/24/2024
查看原文
至今,国际沸石协会结构委员会(IZA-SC)仅记录了255种不同的沸石结构,而理论上可能存在数百万种尚未被发现的结构。合成特定的沸石通常需要使用有机结构导向剂(OSDA),因为对特定沸石的选择性主要由OSDA与沸石之间的亲和力决定。因此,找到最佳的OSDA-沸石配对是合成目标沸石的关键。然而,OSDA-沸石配对经常表现出复杂的几何结构,即由大量原子形成的复杂晶体结构。尽管一些现有的机器学习方法可以表示晶体的周期性,但它们无法准确表示具有局部可变性的晶体结构。为了解决这个问题,我们提出了一种称为Zeoformer的新方法,它可以有效地表示粗粒度的晶体周期性和细粒度的局部可变性。Zeoformer重构了以每个原子为中心的晶胞,并编码该中心原子与重构晶胞内其他原子之间的成对距离。引入重构晶胞内的成对距离可以更有效地表示晶胞的整体结构以及不同晶胞之间的差异,使模型能够更准确、高效地预测OSDA-沸石配对和一般晶体结构的性质。通过综合评估,我们的Zeoformer模型在OSDA-沸石配对数据集和两种类型的晶体材料数据集上展示了最佳性能。
发布时间: 9/24/2024
查看原文