尽管语言模型 (LM) 代理在许多领域展现出越来越大的潜力,但由于设计过于简单且缺乏此领域的基本功能,它们在网络安全方面的成功有限。我们提出了 EnIGMA,一个用于自动解决夺旗 (CTF) 挑战的 LM 代理。EnIGMA 引入了新的代理-计算机接口 (ACI) 以提高 CTF 挑战的成功率。我们建立了新颖的交互式代理工具概念,使 LM 代理能够运行对这些挑战至关重要的交互式命令行实用程序。对 EnIGMA 在三个不同基准测试中超过 350 个 CTF 挑战的实证分析表明,提供一套强大的新工具并演示其用法有助于 LM 解决复杂问题,并在 NYU CTF 和 Intercode-CTF 基准测试中取得最先进的结果。最后,我们讨论了有关 ACI 设计和代理在网络安全任务上的行为的见解,这些见解强调了为 LM 代理调整现实世界工具的必要性。
在智能辅导系统(ITS)中,评估学习者的熟练程度是至关重要的。我们使用项目反应理论(IRT)在计算机辅助语言学习中评估学生在两种情况下(测试环节和练习环节)的能力。广泛技能的全面测试可以提供详细的熟练程度图景,但由于多种原因可能不可取。因此,我们首先旨在用高效且准确的自适应测试来代替全面测试。我们使用在不完美条件下从全面测试中收集的学习者数据来训练IRT模型,以指导自适应测试。模拟和使用真实学习者数据的实验证实了这种方法既高效又准确。其次,我们探索是否可以从练习的背景中直接准确地估计学习者的能力,而无需测试。我们将从练习环节收集的学习者数据转换为可用于IRT建模的形式。这是通过将练习与*语言结构*关联来实现的;然后将这些结构视为IRT中的“项目”。我们展示了来自数千名学习者的的大规模研究结果。使用教师对学生能力的评估作为“真实情况”,我们比较了从测试中获得的估计值与从练习中获得的估计值。实验证实,IRT模型可以根据练习产生准确的能力估计。
为了减轻人工智能系统带来的风险,我们需要准确评估其能力。当能力仅在极少数情况下展现时,这一点尤其困难。Phuong 等人提出了两种方法,旨在更好地估计人工智能代理成功完成给定任务的概率。里程碑方法将任务分解为子任务,旨在改进整体成功率估计,而专家最佳 N 方法利用人工指导作为模型独立性能的代理。我们对这些方法作为蒙特卡罗估计量的分析表明,虽然它们与朴素蒙特卡罗采样相比有效地减少了方差,但也引入了偏差。实验结果表明,由于里程碑方法的约束性假设,它低估了许多现实世界任务的真实解决率。专家最佳 N 方法在所有任务中表现出更严重的低估,这归因于其固有的错误重新加权因子。为了提高人工智能代理在困难任务上的能力估计的准确性,我们建议未来的工作应利用关于蒙特卡罗估计量的丰富文献。
逻辑张量网络 (LTN) 是一种神经符号框架,它有效地将深度学习和逻辑推理结合在一起。特别是,LTN 允许定义一个逻辑知识库,并将其用作神经模型的目标。这使得通过逻辑推理进行学习成为可能,因为模型的参数通过最小化由一组表达学习任务事实的逻辑公式组成的损失函数来优化。该框架通过梯度下降优化进行学习。模糊逻辑是对经典逻辑的放松,允许在区间 [0,1] 中使用连续的真值,这使得这种学习成为可能。具体来说,LTN 的训练包括三个步骤。首先,(1) 训练数据用于对公式进行接地。然后,(2) 对公式进行评估,并计算损失函数。最后,(3) 梯度通过逻辑计算图反向传播,并改变神经模型的权重,以便最大程度地满足知识库。LTNtorch 是 Logic Tensor Networks 的完全文档化和测试的 PyTorch 实现。本文介绍了 LTN 的形式化以及 LTNtorch 如何实现它。此外,它还提供了一个基本的二元分类示例。
视觉语言模型 (VLMs) 在语言理解方面具有巨大潜力,因此能够使语言条件代理 (LCAs) 执行由文本指定的各种任务。这促使人们研究基于强化学习 (RL) 的 LCAs,其奖励由渲染环境图像并使用 VLMs 评估这些图像给出。如果采用单任务 RL,则此类方法受到为每个新任务训练策略所需的成本和时间的限制。多任务 RL (MTRL) 是一种自然选择,但需要精心设计的训练任务语料库,并且并不总是能够可靠地推广到新任务。因此,本文介绍了构建 LCA 问题的一种新颖分解方法:首先找到一个环境配置,该配置对于描述任务的文本具有较高的 VLM 分数;然后使用(预训练的)目标条件策略到达该配置。我们还探索了 VLM 基 LCA 的速度和质量的几个增强功能,特别是使用蒸馏模型,以及从多个视角评估配置,以解决单一 2D 视图固有的歧义。我们在 Humanoid 环境中演示了我们的方法,结果表明它产生了在零样本泛化方面优于 MTRL 基线的 LCA,而无需在训练期间使用任何文本任务描述或其他形式的环境特定注释。 视频和交互式演示可在 https://europe.naverlabs.com/text2control 找到。
人类智能作为最明显、最易获取的推理来源,由生物硬件承载,经过数千年的演化和完善,如今已站在创造新的智能形式的起点,并准备自我设计未来的演化路径。随着基础模型的出现,人类和人工智能相互作用的速度已超出任何预期。这种密切的互动对两种智能都产生了各种影响,自然而然地导致了复杂的融合,值得我们仔细研究。在接下来的文章中,我们将探讨人类和机器智能之间的相互作用,重点关注人类在开发道德、负责任和健壮的智能系统中所起的重要作用。我们将略微深入探讨受神经科学和人类认知机制启发的实施方案的有趣方面。此外,我们将提出未来的展望,利用共生设计的优势,为下一代人工智能的发展提出以人为本的方向。我们以一些尚未被更广泛的社区解决的想法和开放性问题结束这份不断演化的文献。
为了解决将自然语言查询转换为 SQL 命令这一关键问题,我们提出了一套紧凑的微调模型和自优化机制,旨在为非专业用户提供数据访问和分析的民主化途径,同时缓解了封闭式大型语言模型带来的风险。具体而言,我们构建了一个包含超过 20,000 个样本的文本到 SQL 数据集以及偏好数据集,以提高 SQL 生成领域的效率。为了进一步确保代码有效性,我们还在模型中集成了代码校正器。我们的系统 DataGpt-sql 在 spider-dev 上分别取得了 87.2% 的准确率,展示了我们的解决方案在文本到 SQL 转换任务中的有效性。我们的代码、数据和模型可在 \url{https://github.com/CainiaoTechAi/datagpt-sql-7b} 获取。
时间序列预测在各种应用中至关重要,但通常采用复杂模型,这些模型难以被人理解。有效的可解释人工智能技术对于弥合模型预测与用户理解之间的差距至关重要。本文提出了一种框架——TSFeatLIME,它扩展了TSLIME,专门用于解释单变量时间序列预测。TSFeatLIME将辅助特征集成到代理模型中,并考虑查询时间序列与生成样本之间的成对欧几里得距离,以提高代理模型的保真度。然而,此类解释对人类是否有用仍然是一个悬而未决的问题。我们通过两个交互式界面对 160 名参与者进行用户研究,旨在衡量来自不同背景的个人如何在治疗组和对照组中模拟或预测模型输出的变化。我们的结果表明,在 TSFeatLIME 框架下的代理模型能够更好地模拟黑盒的行为,同时考虑距离,而不会牺牲准确性。此外,用户研究表明,这些解释对于没有计算机科学背景的参与者来说更有效。
大型语言模型(LLM)在解决自然语言描述的规划任务方面展现出巨大潜力,但直接使用它们往往会导致推理不一致和幻觉。虽然混合 LLM-符号规划管道已成为更稳健的替代方案,但它们通常需要大量的专家干预来细化和验证生成的行动方案。这不仅限制了可扩展性,而且还引入了潜在的偏差解释,因为单个专家对模棱两可的自然语言描述的解释可能与用户的实际意图不一致。为了解决这个问题,我们提出了一种新方法,该方法构建了一个行动方案库来生成多个候选方案,以解释自然语言描述的多种可能解释。我们进一步引入了一个语义验证和排序模块,该模块可以自动过滤和排序生成的方案和计划,无需专家参与。实验表明,我们的管道在规划方面优于直接的 LLM 规划方法。这些发现证明了完全自动化的端到端 LLM-符号规划器的可行性,该规划器不需要专家干预,为更广泛的受众打开了利用 AI 规划的可能性,而无需先前的领域专业知识。
本文介绍了一种新颖的植物交流应用程序,它利用实时传感器数据和人工智能驱动的语言模型,使植物能够与人类“交谈”。该系统利用土壤传感器跟踪水分、温度和养分水平,并将这些数据输入 Gemini API,在那里进行处理并转化为关于植物健康和“情绪”的自然语言见解。该应用程序使用 Flutter、Firebase 和 ThingSpeak 开发,提供无缝的用户体验和实时交互功能。通过促进人与植物之间的联系,该系统增强了植物护理实践,促进了可持续发展,并在个人和农业环境中为人工智能和物联网技术引入了创新应用。本文探讨了人工智能驱动的植物交流的技术架构、系统集成和更广泛的意义。