软件是我们人类拥有的最强大的工具之一;它使熟练的程序员能够以复杂而深刻的方式与世界互动。与此同时,得益于大型语言模型 (LLM) 的改进,人工智能代理在与周围环境互动并对其产生影响方面也取得了快速发展。在本文中,我们介绍了 OpenHands(原名 OpenDevin),这是一个用于开发功能强大且灵活的人工智能代理的平台,这些代理以与人类开发人员类似的方式与世界互动:通过编写代码、与命令行交互以及浏览网页。我们描述了该平台如何允许实现新的代理、与代码执行沙箱环境的安全交互、多个代理之间的协调以及评估基准的整合。根据我们目前整合的基准,我们在 15 个具有挑战性的任务中对代理进行了评估,包括软件工程(例如,SWE-BENCH)和网页浏览(例如,WEBARENA)等。OpenHands 采用宽松的 MIT 许可发布,是一个跨越学术界和工业界的社区项目,拥有来自 188 位贡献者的 2.1K 多个贡献。
我们提出了 Im2Flow2Act,这是一个可扩展的学习框架,使机器人能够在无需真实世界机器人训练数据的情况下获得真实世界的操作技能。Im2Flow2Act 的核心思想是使用物体流作为操作接口,弥合不同实体(例如人类和机器人)和训练环境(例如真实世界和模拟环境)之间的领域差距。Im2Flow2Act 包含两个组件:一个流生成网络和一个流条件策略。流生成网络在人类演示视频上进行训练,根据任务描述从初始场景图像生成物体流。流条件策略在模拟机器人游戏数据上进行训练,将生成的物体流映射到机器人动作,以实现所需物体运动。通过使用流作为输入,该策略可以直接部署在现实世界中,最小化模拟到现实的差距。通过利用真实世界的人类视频和模拟机器人游戏数据,我们绕过了在真实世界中遥控物理机器人的挑战,从而构建了一个可扩展的系统,适用于各种任务。我们在各种真实世界任务中展示了 Im2Flow2Act 的能力,包括操纵刚性、铰接和可变形物体。
解决网格谜题需要大量的逻辑推理。因此,这是一个评估模型推理能力的好领域,这可以指导我们改进模型的推理能力。然而,大多数现有工作只评估谜题的最终预测答案,而没有深入分析大型语言模型 (LLM) 的推理链(例如它们在哪里失误)或提供任何更精细的指标来评估它们。由于大型语言模型可能依赖于简单的启发式方法或人工制品来预测最终答案,因此除了总体正确性度量之外,评估生成的推理链至关重要,以便准确地评估大型语言模型的推理能力。为此,我们首先开发了 GridPuzzle,这是一个包含 274 个不同复杂度的基于网格的谜题的评估数据集。其次,我们提出了一种新的错误分类法,该分类法源于对来自大型语言模型 (包括 GPT-4、Claude-3、Gemini、Mistral 和 Llama-2) 的推理链进行的手动分析。然后,我们开发了一个基于大型语言模型的框架,用于大规模主观评估(即识别错误)和一个客观指标 PuzzleEval,用于评估推理链的正确性。评估大型语言模型的推理链导致了一些有趣的发现。我们进一步表明,用于增强模型推理能力的现有提示方法并没有提高 GridPuzzle 的性能。这突出了理解细粒度错误的重要性,并为未来的研究提出了挑战,即通过开发解决这些错误的方法来增强大型语言模型的解谜能力。数据和源代码可在 https://github.com/Mihir3009/GridPuzzle 获取。
随着生成式人工智能技术的出现,数字图像操纵变得越来越容易和逼真。最近的发展允许进行文本引导的图像修复,使得用最少的努力就能进行复杂的图像编辑。这为数字媒体取证带来了新的挑战。例如,基于扩散模型的方法可以将修复区域拼接回原始图像,也可以重新生成整个图像。在后一种情况下,传统的图像伪造定位 (IFL) 方法通常会失效。本文介绍了文本引导图像修复伪造 (TGIF) 数据集,这是一个综合的图像集合,旨在支持图像伪造定位和合成图像检测 (SID) 方法的训练和评估。TGIF 数据集包含大约 75,000 张伪造图像,这些图像源自流行的开源和商业方法,即 SD2、SDXL 和 Adobe Firefly。我们在 TGIF 上对几种最先进的 IFL 和 SID 方法进行了基准测试。虽然传统的 IFL 方法可以检测拼接图像,但它们无法检测重新生成的修复图像。此外,传统的 SID 可能会检测到重新生成的修复图像为假,但无法定位修复区域。最后,IFL 和 SID 方法在遇到更强的压缩时都会失效,而它们对现代压缩算法(如 WEBP)的鲁棒性较差。总之,这项工作证明了最先进的检测器在现代生成方法执行的局部操作上的效率低下,并希望有助于开发更强大的 IFL 和 SID 方法。数据集和代码可以从 https://github.com/IDLabMedia/tgif-dataset 下载。
对抗攻击是机器学习模型的潜在威胁,可以通过对输入数据进行难以察觉的扰动来导致错误预测。虽然这些攻击在图像等非结构化数据中得到了广泛研究,但将其应用于表格数据却带来了新的挑战。这些挑战源于表格数据中固有的异质性和复杂的特征相互依赖性,这与图像数据不同。为了解决这种区别,有必要建立针对表格数据的定制不可感知性标准。然而,目前缺乏针对表格数据对抗攻击的不可感知性评估的标准化指标。为了解决这一差距,我们提出了一组关键属性和相应的指标,旨在全面地表征表格数据的不可感知对抗攻击。这些是:与原始输入的接近程度、修改特征的稀疏性、与原始数据分布的偏差、扰动分布狭窄的特征的敏感性、应保持不变的某些特征的不可变性、不应超出有效实际范围的特定特征值的可行性,以及捕获数据属性之间复杂关系的特征相互依赖性。我们使用提出的不可感知性指标评估了五种对抗攻击(包括有界攻击和无界攻击)在表格数据的不可感知性。结果揭示了这些攻击的不可感知性和有效性之间的权衡。该研究还指出了当前攻击算法的局限性,为该领域未来的研究提供了见解。从该实证分析中获得的发现为增强对抗攻击算法的设计提供了宝贵的指导,从而推动了表格数据的对抗机器学习。
图表问答(CQA)是视觉语言理解领域的关键方向。然而,当前视觉语言模型(VLM)在该领域的鲁棒性和一致性仍有待探索。本文在专门为本研究开发的全面数据集上评估了最先进的VLM,这些数据集涵盖了各种问题类别和图表格式。我们研究了两个关键方面:1)模型处理不同程度的图表和问题复杂性的能力,以及2)它们在相同底层数据的不同视觉表示上的鲁棒性。我们的分析揭示了基于问题和图表类型的显著性能差异,突出了当前模型的优势和劣势。此外,我们还确定了改进领域,并提出了未来的研究方向,以构建更健壮和可靠的CQA系统。本研究揭示了当前模型的局限性,并为该领域的未来发展铺平了道路。
本文设计了一种面向 AIoT 系统中设备端时间序列预测的 Transformer 硬件加速器。该加速器将仅整数量化和量化感知训练与优化硬件设计相结合,实现了 6 位和 4 位量化 Transformer 模型,其精度与相关研究中 8 位量化模型相当。通过在嵌入式 FPGA(Xilinx Spartan-7 XC7S15)上进行完整实现,我们考察了在嵌入式物联网设备上部署 Transformer 模型的可行性。这包括对设备端推理的可实现精度、资源利用率、时序、功耗和能耗进行全面分析。我们的结果表明,虽然可以获得足够的性能,但优化过程并非易事。例如,降低量化位宽并不总是导致延迟或能耗降低,这凸显了系统地探索各种优化组合的必要性。与相关研究中的 8 位量化 Transformer 模型相比,我们的 4 位量化 Transformer 模型的测试损失仅增加了 0.63%,运行速度提高了 132.33 倍,能耗降低了 48.19 倍。
视觉故事生成是指根据时间顺序排列的图像序列生成自然语言故事。这项任务不仅对模型来说极具挑战,而且也很难用自动指标进行评估,因为对于什么是“好的”故事还没有共识。在本文中,我们提出了一种新方法,该方法根据人类对之前工作中强调的三个关键方面的相似度来衡量故事质量:视觉基础、连贯性和重复性。然后,我们使用这种方法来评估几种模型生成的故事情节,结果表明,基础模型LLaVA取得了最佳结果,但与TAPM(一个规模小 50 倍的视觉故事生成模型)相比,优势并不明显。升级TAPM的视觉和语言组件会产生一个模型,该模型在参数数量相对较少的情况下,可以获得具有竞争力的性能。最后,我们进行了一项人类评估研究,其结果表明,一个“好的”故事可能需要比人类水平的视觉基础、连贯性和重复性更多的东西。
使用像 Lean 这样的计算机可验证形式化语言证明数学定理对数学推理具有重大影响。一种形式化定理证明方法涉及使用基于自然语言 (NL) 证明的大型语言模型 (LLM) 生成完整的证明。然而,由于对齐的 NL 和形式化语言 (FL) 定理证明数据的稀缺,大多数现代 LLM 表现出次优性能。这种稀缺导致用于训练 LLM 的方法和充分利用其在编写形式化证明方面的能力的技术匮乏。为了应对这些挑战,本文提出了 TheoremLlama,这是一个端到端框架,用于训练一个通用的 LLM 成为 Lean4 专家。TheoremLlama 包括 NL-FL 数据集生成和引导方法以获得对齐的数据集,课程学习和块训练技术来训练模型,以及迭代证明编写方法来编写协同工作的 Lean4 证明。使用 TheoremLlama 中的数据集生成方法,我们提供了开放引导定理 (OBT),这是一个 NL-FL 对齐和引导数据集。我们新颖的 NL-FL 引导方法将 NL 证明集成到 Lean4 代码中以用于训练数据集,利用了 LLM 的 NL 推理能力进行形式化推理。TheoremLlama 框架在 MiniF2F-Valid 和 Test 数据集上分别实现了 36.48% 和 33.61% 的累积准确率,超过了 GPT-4 的 22.95% 和 25.41% 的基线。我们的代码、模型检查点和生成的数据集已发布在 GitHub 上。
近年来,自动驾驶技术的进步涉及有效处理和学习大量现实世界驾驶数据的能力。当前的模仿学习和离线强化学习方法在自动系统中展现出非凡的潜力,利用离线数据集的力量在开环(非反应式代理)环境中做出明智的决策。然而,基于学习的代理在将知识从开环环境转移到闭环(反应式代理)环境时面临着重大挑战。数据分布偏移、样本效率、揭示隐藏世界模型和物理复杂性等因素显著影响性能。为了解决这些问题,我们提出了样本高效的模仿多令牌决策转换器(SimDT)。SimDT 引入了多令牌预测、在线模仿学习管道和优先经验回放,以实现序列建模强化学习。性能通过实证实验评估,结果在 Waymax 基准的开环和闭环设置中均超过了流行的模仿和强化学习算法。与基线方法相比,SimDT 的碰撞率降低了 41%,到达目的地的成功率提高了 18%。