大型语言模型 (LLM) 不断更新以提升性能,通常通过数据或架构的改变。在更新过程中,开发者往往优先考虑提升整体性能指标,而较少关注与早期模型版本保持兼容性。从一个模型版本到下一个模型版本,实例级性能下降(实例回归)会干扰用户对特定语言模型能力的心理模型。用户不得不随着每次更新调整其心理模型,这会导致不满,尤其是在新模型在已知用例中相对于先前版本出现性能下降(模型更新回归)时。我们发现,当预训练的 LLM 基础模型更新时,微调的用户界面下游任务适配器会发生负面翻转——之前正确的实例现在被错误地预测。我们观察到不同模型版本之间在各种任务和模型上存在模型更新回归,即使下游任务训练程序保持一致。我们主张在更新过程中保持模型更新兼容性的重要性,并针对生成式任务专门设计评估指标,同时也可应用于判别式任务。我们提出了一种训练策略,以最大程度地减少模型更新中的实例回归,包括训练兼容性适配器,该适配器可以增强任务微调的语言模型。我们证明,例如,当使用我们提出的方法将 Llama 1 更新到 Llama 2 时,负面翻转减少了高达 40%。
大型多模态模型 (LMM) 在理解人类指令方面表现出色,并在广泛的任务中展现出非凡的成果。来自人类反馈的强化学习 (RLHF) 和 AI 反馈 (RLAIF) 通过将 LLM 与特定偏好对齐,进一步完善了 LLM。这些方法主要使用基于排名的反馈来对整个生成进行评估。借助先进的 AI 模型(教师),例如 GPT-4 和 Claude 3 Opus,我们可以请求各种类型的详细反馈,而这些反馈对于人类来说成本很高。我们提出了一种两阶段算法 ARES,该算法交替进行强化学习 (RL) 和监督微调 (SFT)。首先,我们请求教师评估每个句子对解决思维链 (CoT) 中问题的贡献程度。这种句子级别的反馈使我们能够考虑各个有价值的部分,为 RL 程序提供更细粒度的奖励。其次,我们在 RL 阶段之后要求教师纠正错误的推理。RL 程序需要付出巨大的努力来进行超参数调整,并且通常会产生重复词语和句子不完整等错误。借助纠正反馈,我们通过 SFT 稳定 RL 微调模型。我们在多模态数据集 ScienceQA 和 A-OKVQA 上进行了实验,以证明我们提案的有效性。ARES 推理推理在 GPT-4o 评判下,在基线模型中取得了约 70% 的胜率。此外,我们观察到,改进的推理推理平均导致多模态数据集的推理答案准确率提高了 2.5%。
生成针对特定问题的多样化解决方案是人类创造力的标志。这种发散性推理对于机器来说也至关重要,它可以增强机器的鲁棒性,并使其能够在科学发现等许多应用中协助人类。然而,现有的使用大型语言模型 (LLM) 进行多步推理的方法大多只关注推理的准确性,而没有进一步探索更多样化的有效解决方案。例如,监督微调可以提高 LLM 推理质量,但需要大量监督数据来捕捉所有可能的解决方案。强化学习旨在找到有限的最高奖励解决方案,而忽略了解决方案的多样性。为了填补这一空白,我们提出了推理流 (FoR),这是一种高效的寻求多样性的 LLM 微调方法,旨在用最少的数据提高推理质量和多样性。FoR 将多步 LLM 推理公式化为在 DAG 结构的推理图上的马尔可夫流。这种公式使我们能够整合和调整基于原理的 GFlowNet 方法,用于微调 LLM 以采样具有与目标问题(未归一化)奖励成比例的概率的多样化推理路径。大量的实验表明,在有限的训练示例(例如,15 个示例)下,FoR 使得能够发现多样化、创造性的高质量解决方案,在五个具有挑战性的解谜任务(包括积木世界(具身推理)、24 点游戏(数学解谜)、魔方(空间推理)、一维 ARC(抽象推理)和 PrOntoQA(逻辑推理))中,显著优于各种现有的推理和训练方法。代码可在 https://github.com/Yu-Fangxu/FoR 获取。
随着通用大型语言模型 (LLMs) 的日益普及,人们对模型行为的更全面的解释的需求也随之增长。基于概念的解释为解释 LLMs 学习到的高级模式提供了一条有希望的途径。然而,它们的评估面临着独特的挑战,特别是因为它们在模型隐藏空间中的非局部性质和高维表示。目前的方法从不同的角度来处理概念,缺乏统一的正式化。这使得评估概念的核心指标,即忠实度或可读性,变得具有挑战性。为了弥合这一差距,我们引入了概念的正式定义,将其推广到各种基于概念的解释设置。在此基础上,我们通过扰动量化概念解释的忠实度。通过优化问题,我们确保在高维空间中对不同概念进行充分的扰动。可读性通过一种自动且确定性的度量来近似,该度量量化了最大程度地激活概念并与人类理解一致的模式的连贯性。最后,基于测量理论,我们应用了一种元评估方法来评估这些指标,该方法也适用于其他类型的解释或任务。已经进行了广泛的实验分析,以帮助选择解释评估指标。
目前学习多智能体协作行为的方法通常假设相对有限的环境。在标准的完全协作多智能体强化学习中,学习算法控制场景中的所有智能体,而在临时合作中,学习算法通常只控制场景中的单个智能体。然而,现实世界中许多协作场景的限制要少得多。例如,在自动驾驶场景中,一家公司可能会使用相同的学习算法训练其汽车,但在上路后,这些汽车必须与另一家公司的汽车合作。为了扩展协作学习方法可以最佳解决的场景类别,我们引入了 N-智能体临时合作 (NAHT),其中一组自主智能体必须与动态变化的数量和类型的队友进行交互和合作。本文对该问题进行了形式化,并提出了带有智能体建模的策略优化 (POAM) 算法。POAM 是一种用于解决 NAHT 问题的策略梯度多智能体强化学习方法,通过学习队友行为的表示来实现对不同队友行为的适应。在多智能体粒子环境和星际争霸 II 中的任务上的实证评估表明,与基线方法相比,POAM 提高了协作任务收益,并能够对看不见的队友进行分布外泛化。
人工意识在理论上是否可能?它是否合理?如果是,它在技术上是否可行?为了在这些问题上取得进展,有必要奠定一些基础,澄清人工意识产生的逻辑和经验条件以及所涉及的相关术语的含义。意识是一个多义词:来自不同领域的学者,包括神经科学、人工智能、机器人学和哲学等,有时使用不同的术语来指代相同的现象,或者使用相同的术语来指代不同的现象。事实上,如果我们想追求人工意识,就需要对关键概念进行适当的定义。在这里,在一些逻辑和概念上的预备工作之后,我们主张有必要使用意识的维度和概况来进行关于它们在人工系统中可能实现或实现的平衡讨论。本文的主要目的是回顾人工意识领域中出现的主要理论问题。在此基础上,我们建议在一个多维度框架内评估人工意识问题。人工意识的理论可能性已经在一些理论框架中被假定;然而,经验可能性不能简单地从这些框架中推断出来,而是需要独立的经验验证。我们通过识别意识的组成部分、要素和维度来分解意识的复杂性,并从实用角度反思创造人工意识所面临的普遍挑战。尽管存在这些挑战,我们还是概述了一种研究策略,说明我们提出的“意识”如何可能在人工系统中实现。
大型语言模型(LLMs)作为支持越来越广泛的决策任务的工具,具有巨大的潜力。鉴于它们在人类(创建)数据上的训练,LLMs 已被证明会继承针对受保护群体的社会偏见,并且会受到类似于认知偏见的偏见的影响。类似人类的偏见会阻碍使用 LLM 辅助做出的公平且可解释的决策。我们的工作介绍了 BiasBuster,这是一个旨在揭示、评估和减轻 LLM 中认知偏见的框架,尤其是在高风险决策任务中。受心理学和认知科学先前研究的启发,我们开发了一个包含 13,465 个提示的数据集,以评估 LLM 在不同认知偏见(例如,提示诱导、顺序、固有)上的决策。我们测试了各种偏见缓解策略,同时提出了一种利用 LLM 来消除提示中自身类似人类的认知偏见的新方法。我们的分析全面概述了商业和开源模型中认知偏见的存在和影响。我们证明了我们的自助消除偏见方法有效地减轻了模型答案中表现出类似人类认知偏见模式的现象,而无需为每种偏见手动制作示例。
反事实解释(CE)是通过识别导致不同结果的替代输入,来洞悉黑盒决策模型的实际方法。然而,现有的 CE 方法,包括群体方法和全局方法,主要关注特定输入的修改,缺乏捕捉影响整个输入-输出频谱中模型结果的细微分布特征的能力。本文提出了一种分布式反事实解释(DCE),将重点转移到观察数据和反事实数据的分布特性,从而提供更广泛的见解。DCE 对基于统计数据分析做出战略决策的利益相关者特别有利,因为它使反事实的统计分布在将模型输出与目标分布对齐时,类似于事实的统计分布——这是现有 CE 方法无法完全实现的。我们利用最优传输(OT)来制定一个机会约束优化问题,推导出一个与其实际对应物相一致的反事实分布,并得到统计置信度的支持。实验结果证明了该方法的有效性,突出了其在提供对决策模型的更深入见解方面的潜力。
公平性是人工智能(AI)高风险决策中日益关注的问题,但仅通过技术手段来确保公平性却面临着挑战:没有普遍接受的公平性度量标准,公平性取决于具体情况,并且对什么是公平的可能存在不同的观点。因此,让利益相关者参与进来,即使他们没有人工智能或公平性的背景,也是一个很有前景的途径。直接让利益相关者参与的研究还处于起步阶段,关于如何支持利益相关者对公平性进行反馈,以及如何将这种反馈整合到人工智能模型中,还有很多问题。我们的工作采用了一种方法,让利益相关者可以对特定决策实例及其结果的公平性进行反馈,然后重新训练人工智能模型。为了研究这种方法,我们对用于贷款申请的复杂信贷评分人工智能模型进行了两项研究。在研究 1 中,我们收集了 58 位普通用户对贷款申请决策的反馈,并进行了离线实验以调查对准确性和公平性指标的影响。在研究 2 中,我们通过向 66 位参与者展示其关于公平性的反馈结果,然后进行了进一步的离线分析,深化了这一调查。我们的工作贡献了两个数据集和相关的代码框架,以促进进一步的研究,突出了利用普通用户反馈来提高人工智能公平性的机遇和挑战,并讨论了开发更能反映利益相关者对公平性的观点的人工智能应用程序的实际意义。
大型语言模型 (LLM) 在各种任务中展现出令人印象深刻的性能,但它们在需要多步骤推理或目标导向规划的任务中往往表现不佳。认知神经科学和强化学习 (RL) 都提出了一系列相互作用的功能组件,共同实现多步骤决策中的搜索和评估。这些组件包括冲突监控、状态预测、状态评估、任务分解和协调。为了改进 LLM 的规划能力,我们提出了一种代理架构,即模块化代理规划器 (MAP),其中规划通过上述各个专业模块的循环交互来实现,每个模块都使用 LLM 实现。MAP 通过专业模块的交互来改进规划,这些模块将一个更大的问题分解成对 LLM 的多个简短自动化调用。我们在三个具有挑战性的规划任务(图遍历、汉诺塔和 PlanBench 基准)以及一项需要多步骤推理的 NLP 任务 (strategyQA) 上评估了 MAP。我们发现,MAP 在标准 LLM 方法(零样本提示、上下文学习)和竞争性基线(思维链、多智能体辩论和思维树)方面都取得了显著的改进,可以有效地与更小、更具成本效益的 LLM(Llama3-70B)结合使用,并在任务之间展现出优越的迁移能力。这些结果表明,采用模块化和多智能体方法来规划 LLM 是有益的。