大型预训练图像处理神经网络正被嵌入到自动驾驶汽车或机器人等自主代理中,这就引出了一个问题:尽管这些系统具有不同的架构和训练机制,它们如何彼此沟通周围的世界。作为朝这个方向迈出的第一步,我们系统地探索了在由多种最先进的预训练视觉网络组成的群体中进行指称性沟通的任务,结果表明,它们能够以自监督的方式发展出一种共享协议来指称目标对象(在一组候选对象中)。这种共享协议在一定程度上也可以用于沟通以前从未见过的不同粒度的对象类别。此外,一个最初不属于现有群体的视觉网络可以轻松地学习该群体的协议。最后,我们定性和定量地研究了涌现协议的特性,提供了一些证据表明它正在捕捉对象的较高层次语义特征。
大型语言模型(LLM)能否准确预测选举结果?尽管LLM在医疗保健、法律分析和创意任务等多个领域展现出令人印象深刻的性能,但其预测选举的能力仍然未知。选举预测面临着独特的挑战,例如选民层面的数据有限、政治局势瞬息万变以及需要对复杂的人类行为进行建模。为了应对这些挑战,我们引入了一个专为政治分析设计的多步骤推理框架。我们的方法在来自美国全国选举研究(ANES)2016年和2020年的真实世界数据以及由领先的机器学习框架生成的合成人物(persona)上得到验证,这些数据为选民行为建模提供了可扩展的数据集。为了捕捉时间动态,我们结合了候选人的政策立场和个人背景资料,确保模型能够适应不断变化的政治环境。利用思维链提示,我们的多步骤推理流程系统地整合了人口统计、意识形态和时间相关的因素,从而增强了模型的预测能力。
创造力是产生新颖、有用和令人惊讶的想法的能力,一直被广泛研究为人类认知的关键方面。另一方面,机器创造力长期以来一直是一个挑战。随着先进生成式人工智能的兴起,人们对人工智能的创造能力重新产生了兴趣和争论。因此,必须重新审视人工智能中创造力的现状,并找出关键进展和剩余挑战。在这项工作中,我们调查了研究人工智能系统创造能力的领先著作,重点关注创造性问题解决、语言、艺术和科学创造力。我们的综述表明,虽然最新的AI模型很大程度上能够产生语言和艺术上的创造性输出,例如诗歌、图像和音乐作品,但它们难以完成需要创造性问题解决、抽象思维和组合性的任务,并且它们的生成缺乏多样性、原创性,存在长程不连贯和幻觉问题。我们还讨论了关于生成模型的版权和作者身份问题的关键问题。此外,我们强调需要对创造力进行全面的过程驱动评估,并考虑创造力的几个维度。最后,我们提出了改进人工智能输出创造力的未来研究方向,从认知科学和心理学中汲取灵感。
大型语言模型驱动的智能体在解决复杂任务方面展现出非凡的能力。然而,大多数智能体系统仍然是被动的,这限制了它们在需要预见性和自主决策的场景中的有效性。本文致力于开发能够预测并启动任务,无需明确的人工指令的主动型智能体。我们为此提出了一种新颖的数据驱动方法。首先,我们收集真实世界的人类活动来生成主动任务预测。然后,这些预测由人工标注者标记为接受或拒绝。标记后的数据用于训练奖励模型,该模型模拟人类判断,并作为对大型语言模型智能体主动性的自动评估器。在此基础上,我们开发了一个全面的数据生成流程,创建了一个多样化的数据集 ProactiveBench,包含 6790 个事件。最后,我们证明了使用提出的 ProactiveBench 微调模型可以显著激发大型语言模型智能体的主动性。实验结果表明,我们微调后的模型在主动提供帮助方面达到了 66.47% 的 F1 分数,优于所有开源和闭源模型。这些结果突出了我们的方法在创建更主动和有效的智能体系统方面的潜力,为未来人机协作的进步铺平了道路。
大型语言模型 (LLM) 现在可以作为自主代理与数字环境交互并完成特定目标(例如,安排在线会议)。然而,准确性仍然远未令人满意,部分原因是缺乏针对数字任务的大规模直接演示。从人类那里获取监督数据成本高昂,而通过探索或强化学习自动收集数据则依赖于复杂的环境和内容设置,导致数据集缺乏对各种场景的全面覆盖。另一方面,存在大量可能间接帮助完成任务的知识,例如为人类消费而创建的在线教程。在这项工作中,我们提出了 Synatra,这是一种有效地将这种间接知识大规模转化为直接监督的方法。我们定义了不同类型的间接知识,并仔细研究了获取它的可用来源、编码直接演示结构的方法,以及最终将间接知识转换为直接演示的方法。我们使用 10 万个这种合成生成的演示来微调 7B CodeLlama,并证明生成的代理在三个基于 Web 的任务基准测试 Mind2Web、MiniWoB++ 和 WebArena 上超越了所有大小相当的模型,并且在 WebArena 和 Mind2Web 上也超越了 GPT-3.5。此外,虽然合成演示的成本仅为人工演示的 3%(每个 0.031 美元),但我们表明,合成演示可能比从有限领域收集的相同数量的人工演示更有效。
脉冲神经网络 (SNN) 作为一种超低功耗计算范式受到了广泛关注。最近的研究集中于提高 SNN 的特征提取能力,但它们存在推理效率低和性能次优的问题。本文提出了一种简单而有效的时空反转训练 (TRT) 方法来优化 SNN 的时空性能并规避这些问题。我们通过时间反转来扰动输入时间数据,促使 SNN 产生原始-反转一致的输出,并学习扰动不变的表示。对于没有时间维度的静态数据,我们通过利用 SNN 的固有时间特性进行脉冲特征时间反转来推广这一策略。此外,我们利用轻量级的“星型运算”(逐元素乘法)来混合原始和时间反转的脉冲放电率并扩展隐式维度,这作为时空正则化来进一步增强 SNN 的泛化能力。我们的方法仅在训练过程中涉及时间反转运算和逐元素乘法,因此训练开销可忽略不计,并且完全不会影响推理效率。在静态/神经形态目标/动作识别和 3D 点云分类任务上的大量实验结果证明了该方法的有效性和泛化能力。特别是,仅使用两个时间步长,我们的方法在 ImageNet 和 ModelNet40 上分别达到了 74.77% 和 90.57% 的准确率。
作业车间调度问题 (JSSP) 是一类关键且具有挑战性的组合优化问题。近年来,图神经网络 (GNN) 在解决 JSSP 问题上的应用迅速增加,但相关文献缺乏系统的综述。本文旨在全面回顾用于不同类型 JSSP 以及密切相关的流水车间调度问题 (FSP) 的现有 GNN 方法,特别是那些利用深度强化学习 (DRL) 的方法。我们首先介绍各种 JSSP 的图表示,然后介绍最常用的 GNN 架构。然后,我们回顾每种问题的当前基于 GNN 的方法,重点介绍关键技术要素,例如图表示、GNN 架构、GNN 任务和训练算法。最后,我们总结和分析了 GNN 在解决 JSSP 问题中的优势和局限性,并提供了未来的潜在研究方向。我们希望这篇综述能够激励和启发人们采用更强大的基于 GNN 的方法来解决 JSSP 和其他调度问题。
结构化剪枝已成为构建更高效模型的一种很有前景的方法。然而,该领域缺乏标准化的基准和指标,导致这一领域的进展并未得到充分理解。为了填补这一空白,我们提出了第一个全面的结构化剪枝基准测试,名为PruningBench。PruningBench具有以下三个特点:1)PruningBench采用统一一致的框架来评估各种结构化剪枝技术的有效性;2)PruningBench系统地评估了16种现有的剪枝方法,涵盖了各种模型(例如,CNN和ViT)和任务(例如,分类和检测);3)PruningBench提供易于实现的接口,以方便未来剪枝方法的实现,并使后续研究人员能够将其工作纳入我们的排行榜。我们提供了一个在线剪枝平台http://pruning.vipazoo.cn,用于自定义剪枝任务和复现本文中的所有结果。排行榜结果可在https://github.com/HollyLee2000/PruningBench上获取。
分层强化学习 (HRL) 为具有稀疏奖励的智能体复杂任务提供了一种有前景的解决方案,它使用分层框架将任务分解为子目标并依次完成。然而,当前的方法难以找到合适的子目标来确保稳定的学习过程。在没有额外指导的情况下,仅仅依靠探索或启发式方法来确定大型目标空间中的子目标是不切实际的。为了解决这个问题,我们提出了一种结合人类反馈和动态距离约束的通用分层强化学习框架 (MENTOR)。MENTOR 充当“导师”,将人类反馈融入高级策略学习中,以找到更好的子目标。至于低级策略,MENTOR 设计了一种用于探索-利用解耦的双重策略,以稳定训练过程。此外,虽然人类可以简单地将任务分解为子目标以指导正确的学习方向,但过于困难或过于简单的子目标仍然会阻碍下游学习效率。我们提出了动态距离约束 (DDC) 机制,动态调整可选子目标的空间。因此,MENTOR 可以从易到难生成与低级策略学习过程相匹配的子目标。大量的实验表明,MENTOR 使用少量的人类反馈就能在具有稀疏奖励的复杂任务中取得显著的改进。
神经符号人工智能领域旨在结合神经网络和符号系统以获得益处。该领域的一个基石是将符号知识翻译或编码到神经网络中。尽管已经提出了许多神经符号方法和途径,并且近年来数量大幅增加,但并不存在能够对神经符号方法进行精确理论比较的通用编码定义。本文通过引入神经符号人工智能的语义框架来解决这个问题。我们首先给出语义编码的正式定义,指定知识库能够被神经网络正确编码的组件和条件。然后,我们证明许多神经符号方法都符合此定义。我们提供了一些示例和对应证明,将提出的框架应用于各种知识表示形式的神经编码。许多乍一看差异很大的神经符号方法都被证明符合所提出的形式化方法。这有望通过将未来的神经符号编码置于现有神经符号系统整个家族的语义编码的更广泛背景中,从而为其提供指导。本文希望能帮助启动围绕神经符号人工智能理论和深度学习语义的讨论。