随着大型语言模型 (LLM) 的兴起,理解它们在破译和解释语言所蕴含的复杂因果关系网络中的能力和局限性变得至关重要。当前的方法使用显式或隐式因果推理,但迫切需要一种将两者结合起来的方法,以更有效地处理各种因果关系。本研究提出了一种名为“具有反事实分析的上下文感知推理增强 (CARE CA)” 的新型架构,以增强因果推理和可解释性。该框架将显式因果检测模块与 ConceptNet 和反事实陈述相结合,以及通过 LLM 进行隐式因果检测。我们的框架更进一步,通过一层反事实解释来突出 LLM 对因果关系的理解。来自 ConceptNet 的知识增强了多种因果推理任务的性能,例如因果发现、因果识别和反事实推理。反事实句子增加了关于“非因果”场景的显式知识。通过结合这些强大的模块,我们的模型旨在提供对因果关系的更深入理解,从而实现增强的可解释性。对基准数据集的评估表明,所有指标(如准确率、精确率、召回率和 F1 分数)的性能均有所提高。我们还引入了 CausalNet,这是一个新的数据集,并附带我们的代码,以促进该领域进一步的研究。
开放式问答需要模型找到合适的证据来形成有理有据、全面且有帮助的答案。在实际应用中,模型还需要参与与问题密切相关的潜在场景的扩展讨论。通过检索模块的增强,开源大型语言模型 (LLMs) 可以生成连贯的答案,通常具有不同的关注点,但在可靠的证据选择和深入的问题分析方面仍然不够理想。本文提出了一种新颖的链式讨论框架,利用多个开源 LLMs 之间的协同作用,旨在为开放式问答提供更准确和更全面的答案,尽管它们本身并不足够强大。我们的实验表明,多个 LLMs 之间的讨论在提高答案质量方面起着至关重要的作用。我们发布了我们的数据和代码,地址为 \url{https://github.com/kobayashikanna01/Chain-of-Discussion}。
大型语言模型 (LLMs) 在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLMs 的方法...
面向机器的图像编码 (ICM) 旨在使用识别模型而非人类视觉来压缩图像以供机器分析。因此,在 ICM 中,编码器识别并压缩机器识别任务所需的信息至关重要。学习型 ICM 中主要有两种方法:基于任务损失的压缩模型优化和基于感兴趣区域 (ROI) 的比特分配。这些方法为编码器提供了识别能力。然而,当识别模型很深时,使用任务损失进行优化会变得困难,而基于 ROI 的方法在评估期间通常会带来额外的开销。在本研究中,我们提出了一种新的学习型 ICM 模型训练方法,该方法在编码器中应用辅助损失,以提高其识别能力和率失真性能。与传统训练方法相比,我们的方法在目标检测和语义分割任务中实现了 27.7% 和 20.3% 的 Bjontegaard Delta 速率改进。
我们介绍了语言反馈模型 (LFMs),它可以识别理想的行为——帮助完成指令中指定任务的动作——用于指令遵循的模仿学习。为了训练 LFMs,我们从大型语言模型 (LLMs) 中获取对语言描述的视觉轨迹的反馈。首先,通过使用 LFMs 来识别要模仿的理想行为,我们在三个不同的语言接地环境(Touchdown、ScienceWorld 和 ALFWorld)中,比强大的行为克隆基线在任务完成率方面有所提高。其次,在控制 LLM 输出令牌数量的情况下,LFMs 在使用 LLMs 作为专家直接预测动作方面表现出色。第三,LFMs 可以推广到看不见的环境,通过一轮适应,任务完成率提高了 3.5-12.0%。最后,LFM 可以被修改以提供人类可解释的反馈,而不会损失性能,从而允许人类验证模仿学习的理想行为。
大型语言模型 (LLM) 的出现为构建旨在准确复制人类行为的计算模拟开辟了令人兴奋的可能性。当前研究表明,基于 LLM 的代理在性能方面越来越像人类,这激发了人们对在行为研究中使用这些 AI 代理来替代人类参与者的兴趣。然而,LLM 是复杂的统计学习器,没有直接的演绎规则,这使得它们容易出现意外行为。因此,研究和确定人类与基于 LLM 的代理之间的关键行为差异至关重要。在本研究中,我们强调了 LLM 在模拟人际互动方面的局限性,特别关注 LLM 模拟人们日常生活和决策过程重要方面的政治辩论的能力。我们的研究结果表明,LLM 代理倾向于符合模型固有的社会偏见,尽管它们被指示从某些政治角度进行辩论。这种倾向会导致行为模式,这些模式似乎偏离了人类之间公认的社会动态。我们使用自动自微调方法加强了这些观察结果,该方法使我们能够操纵 LLM 中的偏见,并证明代理随后与改变的偏见保持一致。这些结果强调了需要进一步研究以开发帮助代理克服这些偏见的方法,这是迈向创建更逼真模拟的关键一步。
先前关于目标检测的研究在封闭场景中取得了很高的精度,但在开放世界场景中的表现并不令人满意。自动驾驶中的角落案例检测是一个具有挑战性的开放世界问题。现有的检测器难以应对这些案例,严重依赖视觉外观,泛化能力较差。本文提出了一种解决方案,通过减少已知类别和未知类别之间的差异,并引入了一种多模态增强目标性概念学习器。我们的半监督学习框架利用视觉中心和图像文本两种模态,将目标性知识传授给学生模型,从而实现类别感知检测。我们的方法,用于角落案例检测的多模态增强目标性学习器(MENOL),显著提高了新类别的召回率,同时降低了训练成本。在 CODA-val 数据集上,仅使用 5100 张标记的训练图像,MENOL 就实现了 76.6% 的 mAR-corner 和 79.8% 的 mAR-agnostic,分别比基线 ORE 高出 71.3% 和 60.6%。代码将发布在 https://github.com/tryhiseyyysum/MENOL。
现有的代码语言模型(代码LM)评估基准几乎完全集中于LM是否能够生成功能正确的代码。在现实世界的软件工程中,开发人员除了功能正确性之外还会考虑其他因素。他们对“如何”实现功能以满足整体系统设计目标(如效率、安全性和可维护性)有要求。如果LM能够展现出对这些要求的稳健理解,他们会更加信任代码LM。
我们提出了一个新的基准NoFunEval,用于评估代码LM在非功能性需求和功能性需求和非功能性需求的简单分类实例上的表现。我们提出了一种提示方法,编码概念(CoCo),作为开发人员向LM传达领域知识的一种方式。我们对27个代码LM进行了广泛的评估。我们的发现是,LM在我们的基准测试中普遍表现不佳,暗示了其训练设置中存在根本性的盲点。令人惊讶的是,即使是从流行的HumanEval基准中获得的功能正确性实例的分类准确率也很低,这让人质疑它们理解的深度以及它们最初在生成功能正确代码方面的成功来源。我们在https://aka.ms/NoFunEval公开发布了我们的基准和评估脚本。
现有的方法,例如概念瓶颈模型(CBMs),在为黑盒深度学习模型提供基于概念的解释方面取得了成功。它们通常通过根据输入预测概念,然后根据预测的概念预测最终类别标签来工作。然而,(1) 它们往往无法捕捉到概念之间的高阶非线性交互,例如,纠正预测的概念(例如,“黄色胸部”)并不能帮助纠正高度相关的概念(例如,“黄色腹部”),导致最终精度不佳;(2) 它们无法自然地量化不同概念和类别标签之间的复杂条件依赖关系(例如,对于具有类别标签“肯塔基莺”和概念“黑色喙”的图像,模型正确预测另一个概念“黑色冠”的概率是多少),因此无法提供对黑盒模型工作原理的更深入见解。为了解决这些局限性,我们提出了基于能量的概念瓶颈模型(ECBMs)。我们的 ECBMs 使用一组神经网络来定义候选(输入、概念、类别)元组的联合能量。通过这种统一的接口,预测、概念校正和条件依赖关系量化随后被表示为条件概率,这些概率是通过组合不同的能量函数生成的。我们的 ECBMs 解决了现有 CBMs 的两个局限性,提供了更高的准确性和更丰富的概念解释。实证结果表明,我们的方法在真实世界数据集上优于最先进的方法。
在本研究中,我们探讨了针对混合表格和文本数据的问答 (QA) 问题,这种数据形式在网络上十分常见(例如,美国证券交易委员会文件),其中经常需要离散推理能力。最近,像 GPT-4 这样的大型语言模型 (LLM) 已展现出强大的多步骤推理能力。因此,我们考虑利用 LLM 的强大功能来解决我们的任务。我们抽象出一个针对表格和文本 QA 的分步管道,该管道包含三个关键步骤,包括提取器、推理器和执行器,并最初设计一个指令来实例化该管道并验证 GPT-4 的性能优于所有现有方法。然而,使用像 GPT-4 这样的在线 LLM 会带来成本、延迟和数据安全风险等挑战,这促使我们针对该任务专门化更小的 LLM。我们通过使用来自现有专家标注数据集的自动生成训练数据,对 LLaMA 2 进行微调,开发了一个 TAT-LLM 语言模型,该模型遵循分步管道。实验结果验证了我们的 TAT-LLM 模型能够在 FinQA、TAT-QA 和 TAT-DQA 基准上优于所有基线模型,包括之前最佳的微调模型和像 GPT-4 这样的超大型 LLM。