arXiv:2412.01095v3 通知类型: 替换
摘要:视觉语言模型(VLMs)的迅速发展已在视频异常检测(VAD)中建立了新的范式:利用VLMs同时进行异常检测并提供可理解的决策解释。现有工作的这一方向往往假设VAD所需的复杂推理超出了预训练VLM的能力。因此,这些方法要么在推理过程中引入专门的推理模块,要么通过额外训练依赖于指令调优数据集来适应VLMs用于VAD。然而,这些策略往往会产生巨大的计算成本或数据标注负担。为了解决这些可解释VAD中的挑战,我们提出了一种名为VERA的口头学习框架,使VLMs能够在不修改模型参数的情况下执行VAD。具体而言,VERA自动将VAD所需的复杂推理分解为对更简单、更集中指导问题的反思,这些问题捕捉了不同的异常模式。它将这些反思性问题视为可学习的参数,并通过学习者和优化器VLM之间的数据驱动口头交互进行优化,使用粗略标签的训练数据。在推理过程中,VERA将学习到的问题嵌入到模型提示中,以引导VLMs生成段级异常分数,然后通过场景和时间上下文的融合将其提炼为帧级评分。在具有挑战性的基准测试上的实验结果表明,VERA学习到的问题高度适配,显著提高了VLMs在VAD中的检测性能和可解释性。
arXiv:2411.13543v2 宣告类型: 替换
摘要: 大型语言模型(LLMs)和视觉语言模型(VLMs)拥有广泛的知识,并表现出令人满意的推理能力,然而,它们在复杂、动态环境中仍然难以表现出色。真实的任务要求处理复杂的交互、高级的空间推理、长期规划以及不断探索新策略等-在这些方面,我们缺乏有效的评估方法来全面评估这些能力。为了解决这一差距,我们引入了BALROG,这是一种新型基准,旨在通过一系列具有挑战性的游戏来评估LLMs和VLMs的智能代理能力。我们的基准集成了不同难度级别的现有强化学习环境,包括非专家人类在几秒钟内可以解决的任务,以及可能需要多年才能掌握的极其具有挑战性的任务(例如NetHack学习环境)。我们设计了细致的评估指标来衡量性能,并对多个流行的开源和封闭源LLMs和VLMs进行了广泛评估。我们的研究结果表明,当前模型在较简单的游戏中取得了一定的成功,但在更具挑战性的任务中却表现出了显著的困难。值得注意的是,我们观察到视觉决策的严重缺陷,因为当提供环境的视觉表示时,许多模型的表现更差。我们以开源和用户友好的方式发布了BALROG,以促进智能代理社区的未来研究与开发。代码和排行榜可在balrogai.com上找到。
arXiv:2411.06559v2 宣告类型: 重写
摘要:基于大型语言模型(LLMs)的语言代理在自动化网络任务方面展现出了巨大的潜力。近期研究表明,将先进的规划算法,例如树搜索,整合到网络代理中,相比于反应性规划更有优势。然而,与模拟的沙盒环境不同,现实生活中的环境,如网络,充满了不可撤销的操作。这削弱了回溯的可行性,回溯是(树)搜索的核心。过度依赖测试时的搜索也会损害效率。我们提倡为网络代理采用基于模型的规划方法,这种方法利用世界模型模拟和审慎地考虑每个候选行动的结果,然后才做出决定。我们系统地探索了这一范式,通过(1)提出一个基于模型的规划框架 WebDreamer,使用 LLM 作为世界模型和价值函数;(2)利用可扩展的数据合成管道训练专门的世界模型。实验结果表明,WebDreamer 在反应性基线上的性能显著提升。与沙盒环境(VisualWebArena)中的树搜索相比,它在效率上更胜一筹,同时也能在实际网站(Online-Mind2Web 和 Mind2Web-Live)上有效工作。此外,我们训练的世界模型 Dreamer-7B 在表现上与 GPT-4o 相当,这凸显了专门化世界模型在复杂网络环境中进行高效和有效规划的潜力。
arXiv:2410.18293v2 宣告类型: 替代
摘要:尽管在概率模型检查方面取得了进展,但验证方法的可扩展性仍然有限。特别是在用中等值实例化参数化马尔可夫决策过程(MDPs)时,状态空间往往变得极其庞大。对于这种巨大的MDPs生成策略超出了现有工具的能力。我们提出了一种基于学习的方法来获得这样的巨大MDPs的合理策略。该方法的思路是使用决策树学习将模型检查小实例得到的最优策略推广到更大的实例。因此,我们的方法绕过了对大规模模型显式状态空间探索的需要,提供了一种解决状态空间爆炸问题的实用方案。我们通过在相关基准集中的定量验证模型进行广泛的实验来证明我们方法的有效性。实验结果表明,即使当模型的规模远远超出最先进的分析工具所能处理的范围时,我们的策略表现良好。
arXiv:2410.15164v3 宣布类型: 替换
摘要:智能手机代理在帮助用户高效控制设备方面越来越重要,基于(多模态)大型语言模型(MLLM)的方法正在成为关键技术竞争对手。公平比较这些代理至关重要但具有挑战性,需要涵盖不同的任务范围,将具有不同实现的代理整合进来,并建立一个可推广的评估框架来评估它们的优缺点。在本文中,我们提出了SPA-Bench,这是一项全面的智能手机代理基准测试,旨在评估(M)LLM-基于的代理在模拟现实环境的交互环境中。SPA-Bench 提供了三大关键贡献:(1) 一个多样化的任务集,涵盖了英语和中文的系统和第三方应用程序,重点是日常生活中常见的功能;(2) 一个即插即用框架,允许实时与Android设备进行代理交互,并集成了超过十个代理,具有更多的灵活性;(3) 一种创新的评估框架,能够自动从多个维度评估代理性能,包括七个与任务完成和资源消耗相关的指标。我们在任务和代理之间进行了广泛的实验,揭示了诸如解释移动用户界面、动作匹配、记忆保持和执行成本等挑战。我们提出了未来的研究方向,以减轻这些困难,朝着更接近实际智能手机代理应用程序的方向迈进。SPA-Bench 可在 https://ai-agents-2030.github.io/SPA-Bench/ 获取。
arXiv:2410.08025v3 公告类型:替换
摘要:许多在机器学习、认知/脑科学和社会中提出的神经网络应用依赖于通过电路发现实现内在可解释性的可行性。这呼唤对可行算法选项进行实证和理论探索。尽管在设计和测试启发式方法方面取得了进展,但在缺乏对它们所部署解决的问题复杂性属性的理解时,人们对其可扩展性和忠实性表示担忧。为了应对这一挑战,我们使用经典计算复杂性和参数化计算复杂性理论研究电路发现:(1)我们描述了一个概念性框架,用于用描述、解释、预测和控制方面的 affordance 来推理电路查找查询;(2)我们形式化了一套全面的查询,用于机制性解释,并提出了一个分析它们的形式框架;(3)我们使用它来确定许多具有实际兴趣的查询变体和放宽形式的复杂性。我们的研究发现揭示了一个具有挑战性的复杂性景观。许多查询是不可处理的,相对于模型/电路特征仍然保持固定参数不可处理,并且在加性、乘性以及概率近似方案下不可逼近。为了应对这一景观,我们证明了一些难以处理的问题可以通过理解较好的启发式方法来解决,并证明了一些保留有用 affordance 的较适度查询的可处理性和固定参数可处理性。该框架使我们能够理解解释查询的范围和局限性,探索可行的选项,并比较其在现有和未来架构上的资源需求。
arXiv:2407.06501v3 通告类型: 替换
摘要:人类评估一直是检查自提取总结忠实性的金标准。然而,在像叙事这样的具有挑战性的源领域中,多个注释器可能会一致地认为一个总结是忠实的,而一旦指出某些明显的错误,才发现遗漏了这些细节。因此,我们介绍了一个新的数据集STORYSUMM,包含对短篇故事进行LLM总结并附有局部忠实性标签和错误解释的数据集。该基准用于评估方法,测试给定方法是否能够检测出难以察觉的不一致之处。使用该数据集,我们首先表明任何一种人类注释协议都可能会错过不一致之处,并提倡在建立总结数据集的根源事实时采用多种方法。最后,我们测试了最近的自动评估指标,发现它们在该任务上的平衡准确率均不超过70%,证明这是一个未来工作在忠实性评估方面具有挑战性的基准。
arXiv:2407.00805v5 通知类型: 更新
摘要:不完备偏好提案(IPP)是一个确保先进人工智能代理从不抵制关闭的想法。IPP的关键部分是使用一种新颖的“等长轨迹折扣奖励(DReST)”奖励函数来训练代理,使其能够在(1)根据每个轨迹长度的有效性追求目标(“有用”),以及(2)在不同轨迹长度之间进行随机选择(“对于轨迹长度是中立的”)。在本文中,我们提出了评估“有用性”和“中立性”的指标。我们使用DReST奖励函数来训练简单的代理在网格世界中导航,并发现这些代理学会了“有用”和“中立”。因此,我们的结果为DReST奖励函数有可能训练先进代理成为“有用”和“中立”提供了初步证据。我们的理论工作表明,这些代理将是有用的并且可以关闭的。
arXiv:2405.17956v3 宣告类型: 更新
摘要: 对于对齐大语言模型(LLMs),先前的工作利用了基于人类反馈的强化学习(RLHF)或直接偏好优化(DPO)的变体。虽然DPO提供了一个基于最大似然估计的更简单的框架,但它牺牲了对语言模型进行轻松调整以最大化辅助、非偏好的目标(例如,调整词汇风格或最小化特定类型的有害内容)的能力,根据LLM设计者的偏好。至关重要的是,这些设计目标可能没有充分的人类标注或表示在可用数据中,不与用户偏好一致,甚至可能无法用二元偏好对来捕获。为了利用DPO的简单性和性能以及RL的通用性,我们提出了一种统一的方法。基于偏好和辅助目标的一个简单分解,我们允许调整LLMs以优化用户和设计者的偏好,无需任何额外的专门或偏好数据、计算成本、稳定性调整或培训不稳定性。所提议的方法,统一偏好优化,展示了有效泛化到用户偏好和辅助目标的能力,同时在一系列模型大小的具有挑战性的基准上保持或超越了对齐性能。
arXiv:1904.06866v3 宣告类型: 替换
摘要:预测在风险和不确定性下的人类决策仍然是跨学科领域的一个基本挑战。现有模型在诸如彩票选择等高度模式化的任务中常常挣扎。我们引入了行为理论与机器学习相结合的混合模型 BEAST 梯度提升(BEAST-GB)。我们首先介绍了 CPC18 竞赛,其中 BEAST-GB 在预测风险选择方面获胜。然后,使用两个大型数据集,我们展示了 BEAST-GB 比在大量数据上训练的神经网络和数十种现有行为模型更准确地预测风险选择。BEAST-GB 还能够在未见过的实验环境中稳健泛化,超越直接的经验泛化,并帮助改进和完善行为理论本身。我们的分析强调,在数据丰富的环境中甚至在理论本身失败的情况下,将预测锚定在行为理论上的潜力。我们的结果强调了将机器学习与理论框架相结合,特别是那些专门为预测设计的框架,如 BEAST,可以提高我们预测和理解人类行为的能力。