arXiv:2403.07887v2 公告类型: 替换-交叉 摘要: 多项关于人类认知的论述认为,我们的智能根植于我们形成抽象可组合概念、将这些概念根植于环境并基于这些根植实体进行推理的能力。这一人类思维的三位一体在现代智能机器中仍然难以捉摸。在本研究中,我们探讨了从视觉场景中提取的槽位表示是否适合作为根植和推理的组合抽象。我们提出了神经槽解释器(NSI),该模型学习将对象语义根植于槽位中。NSI的核心是一个类似XML的架构,它使用简单的语法规则将场景的对象语义组织成以对象为中心的架构原语。然后,NSI度量通过一个结构化的目标学习将原语根植于槽位中,该目标考虑了跨模态的对齐。我们展示了根植的槽位在现实世界对象发现中超越了无监督槽位,并随着场景复杂性的增加而扩展。在双模态对象-属性及场景检索任务中的实验证明了NSI学习的对应关系的根植效力和可解释性。最后,我们研究了根植槽位的推理能力。使用仅十个标记的根植感知NSI标记器训练的视觉变换器在具有挑战性的少样本分类任务中优于基于分块的标记器。
大型语言模型(LLMs)在数学和算法任务中展现出日益增强的能力,然而它们在几何推理方面的技能却鲜有探索。我们研究了LLMs在构建性几何问题解决中的能力,这是人类数学推理发展中最基本的步骤之一。我们的工作揭示了最先进的LLMs在这一领域面临的显著挑战,尽管它们在类似领域取得了许多成功。LLMs在目标变量选择上表现出偏见,并且在处理二维空间关系时遇到困难,常常错误地表示和幻觉对象及其位置。为此,我们引入了一个框架,该框架构建了一个基于LLMs的多代理系统,通过内部对话增强其现有的推理潜力。这项工作强调了LLMs在几何推理方面的当前局限性,并通过自我纠正、协作和多样化角色专业化来提升几何推理能力。
知识图谱嵌入(KGE)模型在包括链接预测和信息检索在内的许多知识图谱任务中取得了最先进的结果。尽管KGE模型在实践中表现出色,但我们发现一些流行的现有KGE模型存在一个称为\emph{Z-paradox}的表达能力缺陷。受Z-paradox存在的影响,我们提出了一种新的KGE模型,称为\emph{MQuinE},该模型在保留强大表达能力的同时,避免了Z-paradox的影响,能够以理论依据建模包括对称/非对称、逆向、1-N/N-1/N-N以及组合关系在内的各种关系模式。在真实世界知识库上的实验表明,Z-paradox确实降低了现有KGE模型的性能,并且在某些具有挑战性的测试样本上可能导致超过20\%的准确率下降。我们的实验进一步证明,MQuinE能够减轻Z-paradox的负面影响,并在链接预测任务中显著优于现有的KGE模型。
图表示学习作为图相关任务的关键步骤,已经取得了显著进展。早期的技术通常在端到端设置中运行,这严重依赖于大量标注数据的可用性。这一限制促使了图上的少样本学习的出现,其中每个任务仅有少量标签可用。鉴于该领域的广泛文献,本综述致力于综合近期的发展,提供比较性见解,并识别未来的方向。我们系统地将现有研究根据两大分类进行归类:(1)问题分类,探讨不同类型的数据稀缺问题及其应用;(2)技术分类,详细阐述解决这些数据稀缺少样本问题的关键策略。这些技术大致可分为元学习、预训练和混合方法,每类中又有更细粒度的分类,以帮助读者在方法选择过程中提供参考。在每类中,我们分析了这些方法之间的关系,并比较了它们的优缺点。最后,我们概述了图上少样本学习的未来方向,以促进该领域的持续创新。本综述的网站可通过\url{https://github.com/smufang/fewshotgraph}访问。
生存分析(SA)模型描述了事件发生前的时间,应用于医学、国防、金融和航空航天等领域。最近的研究表明,神经网络(NNs)能够有效捕捉SA中的复杂数据模式,而简单的广义线性模型在这方面往往表现不佳。然而,数据集的不确定性(如噪声测量、人为误差)会降低NN模型的性能。为此,我们利用NN验证的进展,开发了针对鲁棒、全参数SA模型的训练目标。具体而言,我们提出了一种基于Min-Max优化问题的对抗性鲁棒损失函数。我们采用CROWN-区间边界传播(CROWN-IBP)来解决解决这一Min-Max问题固有的计算挑战。在10个SurvSet数据集上的评估结果显示,我们的方法——带有对抗性正则化的生存分析(SAWAR),在各种协变量扰动下,相对于负对数似然(NegLL)、综合Brier评分(IBS)和一致性指数(CI)等指标,始终优于基线对抗性训练方法和最先进的(SOTA)深度SA模型。因此,我们证明了对抗性鲁棒性增强了SA的预测性能和校准,通过减少数据不确定性和提高跨多样数据集的泛化能力,相比基线模型最多可提升150%。
随着更容易获得强大的计算资源,人工智能在软件开发中的趋势是开发大型语言模型(LLMs)来解决各种编程任务。即使是应用于高性能计算(HPC)领域任务的LLMs,其规模也非常庞大,并且需要昂贵的计算资源进行训练。这部分原因是HPC任务的LLMs是通过微调支持多种自然语言和/或编程语言的现有LLMs获得的。我们发现这种设计选择令人困惑——为什么我们需要在自然语言和与HPC无关的编程语言上训练的LLMs来处理HPC特定的任务?在这项工作中,我们旨在通过开发特定领域的小型语言模型(LMs)来质疑现有LLMs的选择——我们称之为领域特定LMs。具体来说,我们以HPC作为一个领域,构建了一个名为MonoCoder的HPC特定LM,其规模远小于现有的LMs,但在非HPC和HPC代码上的表现更好。具体来说,我们在从GitHub挖掘的C和C++程序的HPC特定数据集(名为HPCorpus)上对MonoCoder进行了预训练。我们评估了MonoCoder与最先进的多种语言LLMs的性能。结果表明,尽管MonoCoder比现有的LMs小得多,但在与模型大小相关的标准化困惑度测试中表现优于其他LLMs,同时在高性能和并行代码生成方面也提供了具有竞争力的CodeBLEU分数。换句话说,结果表明MonoCoder对HPC代码的理解优于最先进的LLMs。
大型语言模型(LLMs)展示了令人印象深刻的语言理解和生成能力,使它们能够回答跨多个领域的广泛问题。然而,这些模型并非完美无缺,常常产生包含错误或误导信息的回答。这些不准确性,通常被称为幻觉,使得LLMs在许多场景中变得不可靠甚至无法使用。本文的重点是减轻LLMs在问答情境中的幻觉问题。我们不试图回答所有问题,而是探索一种拒绝机制,指导LLMs拒绝回答具有挑战性的问题以避免错误。随后,我们提出了一种简单而有效的解决方案,称为“学会拒绝”(L2R),该方案结合了拒绝机制,使LLMs能够识别并拒绝回答它们认为难以处理的问题。为此,我们利用一个结构化的知识库来表示LLMs对世界的所有理解,使其能够提供可追溯的黄金知识。该知识库独立于LLM,最初为空,可以填充经过验证的知识并逐步扩展。当LLM遇到其领域之外的问题时,系统识别其知识范围并确定是否可以独立回答该问题。此外,我们引入了一种自动且高效扩展LLMs知识库的方法。通过定性和定量分析,我们证明了我们的方法增强了LLMs的可控性和可靠性。
大型语言模型(LLMs)由于其卓越的理解、分析和基于广泛知识和推理能力生成文本的能力,最近在学术界和工业界都发生了变革。然而,LLMs的一个主要缺点是预训练的巨大计算成本,这是由于其前所未有的参数数量。当需要频繁地将新知识引入预训练模型时,这一缺点更加明显。因此,开发有效且高效的更新预训练LLMs的技术变得至关重要。传统方法通过直接微调将新知识编码到预训练的LLMs中。然而,简单地重新训练LLMs可能会计算密集,并可能使与更新无关的宝贵预训练知识退化。最近,基于知识的模型编辑(KME)引起了越来越多的关注,其目标是精确地修改LLMs以纳入特定知识,而不负面影响其他无关知识。在这篇综述中,我们旨在提供对KME领域最新进展的全面深入概述。我们首先介绍了一个涵盖不同KME策略的通用公式。随后,我们基于新知识如何引入预训练LLMs,提供了一个创新的KME技术分类,并研究了现有的KME策略,同时分析了每类方法的关键见解、优势和局限性。此外,我们相应地介绍了KME的代表性指标、数据集和应用。最后,我们深入分析了KME的实用性和剩余挑战,并提出了该领域进一步发展的有前景的研究方向。
arXiv:2310.04910v5 公告类型: 替换-交叉 摘要: 语言模型 (LMs) 与知识图谱 (KGs) 的融合在常识问答中被广泛应用,但生成可信的解释仍然具有挑战性。当前的方法往往忽视路径解码的忠实性,导致图编码器输出与模型预测之间的偏差。我们识别出混淆效应和LM-KG对齐问题作为导致虚假解释的关键因素。为解决这一问题,我们引入了LM-KG忠实度指标来评估KG表示的可靠性,并提出了LM-KG分布感知对齐 (\textit{LKDA}) 算法以提高解释的忠实性。在没有真实标签的情况下,我们使用提出的忠实度-稀疏性权衡曲线来评估KG解释。在CommonsenseQA和OpenBookQA上的实验表明,LKDA显著提升了解释的忠实性和模型性能,突显了解决分布对齐问题对于可靠的常识推理的重要性。
广义零样本学习(GZSL)旨在仅使用已见类样本进行训练,以识别来自已见和未见类的样本。然而,由于投影函数是从已见类中学习的,GZSL方法在推理过程中容易偏向已见类。大多数方法专注于学习准确的投影,但投影中的偏差是不可避免的。我们通过提出学习参数化的马氏距离度量来进行鲁棒推理来解决这种投影偏差。我们的关键见解是,即使在存在偏差投影的情况下,推理过程中的距离计算也是至关重要的。我们做出了两个主要贡献:(1)我们扩展了VAEGAN(变分自编码器与生成对抗网络)架构,增加了两个分支,分别输出已见和未见类样本的投影,从而实现更鲁棒的距离学习。(2)我们引入了一种新的损失函数,以优化马氏距离表示并减少投影偏差。在四个数据集上的广泛实验表明,我们的方法在调和平均指标上比最先进的GZSL技术提升了高达3.5%。