LLM2D

arXiv 论文列表

作者: Anton Xue, Avishree Khare, Rajeev Alur, Surbhi Goel, Eric Wong
我们研究了如何使大型语言模型 (LLMs) 违背提示指定的规则。我们将遵循规则建模为命题 Horn 逻辑中的推理,这是一种数学系统,其中规则具有“如果 $P$ 且 $Q$,则 $R$”的形式,其中 $P$、$Q$ 和 $R$ 是某些命题。我们证明,尽管 LLMs 可以忠实地遵循此类规则,但恶意制作的提示可能会误导甚至理想化、理论上构建的模型。从经验上看,我们发现 LLMs 的推理行为与我们的理论构建一致,并且流行的攻击算法发现了具有我们理论预测的特征的对抗性提示。我们基于逻辑的框架为机械地理解 LLMs 在基于规则的设置(例如越狱攻击)中的行为提供了新的视角。
发布时间: 10/3/2024
查看原文
作者: Jun Zhang, Wenxuan Ao, Junbo Yan, Depeng Jin, Yong Li
随着人工智能技术的不断发展,交通系统优化正在从传统依赖专家经验的方法转向基于模拟和学习的决策与优化方法。基于学习的优化方法需要与高度逼真的微观交通模拟器进行大量交互。然而,现有的微观交通模拟器在大规模场景中效率低下,因此无法支持这些方法在大规模交通系统优化场景中的应用。此外,现有模拟器支持的优化场景有限,主要集中在交通信号控制方面。为了解决这些挑战,我们提出了第一个开源 GPU 加速的大规模微观交通模拟器,用于交通系统模拟和优化。该模拟器可以以 84.09Hz 的频率迭代,与最佳基准 CityFlow 相比,在大规模场景中(2,464,950 辆车)实现了 88.92 倍的计算加速。此外,通过采用 IDM 模型作为跟车模型和随机 MOBIL 模型作为变道模型,它在真实数据集上模拟的平均道路速度更加逼真。在此基础上,我们通过 Python API 实现了一组微观和宏观可控对象和指标,以支持典型的交通系统优化场景。我们在四个城市选择了五个代表性场景,并对经典的基于规则的算法、强化学习算法和黑盒优化算法进行了基准测试。这些实验有效地证明了模拟器在大型交通系统优化中的可用性。模拟器的代码可在 https://github.com/tsinghua-fib-lab/moss 获取。我们建立了一个开放注册的网络平台,可在 https://moss.fiblab.net 访问,以支持无代码试用。
发布时间: 10/3/2024
查看原文
作者: Yanming Liu, Xinyue Peng, Jiannan Cao, Shi Bo, Yuwei Zhang, Xuhong Zhang, Sheng Cheng, Xun Wang, Jianwei Yin, Tianyu Du
大型语言模型 (LLM) 在许多自然语言处理任务中已经超越了传统方法。最近,这种能力被应用于工具学习的范式中。工具学习涉及提供工具使用示例及其相应功能,允许 LLM 制定计划并展示调用和执行每个工具的过程。LLM 可以解决它们无法独立完成的任务,从而增强它们在不同任务中的潜力。然而,这种方法面临着两个关键挑战。首先,冗余的错误修正会导致计划不稳定和执行时间过长。此外,在多个工具中设计一个正确的计划也是工具学习中的一个挑战。为了解决这些问题,我们提出了 Tool-Planner,一个基于工具包的任务处理框架。Tool-Planner 根据具有相同功能的 API 函数将工具分组到一个工具包中,并允许 LLM 在各种工具包中实现计划。当出现工具错误时,语言模型可以根据工具包重新选择和调整工具。实验表明,我们的方法在不同数据集上展示了较高的通过率和胜率,并优化了 GPT-4 和 Claude 3 等模型中工具学习的规划方案,展示了我们方法的潜力。我们的代码在 \url{https://github.com/OceannTwT/Tool-Planner} 上公开。
发布时间: 10/3/2024
查看原文
作者: Yichi Zhang, Zhuo Chen, Lingbing Guo, Yajing Xu, Binbin Hu, Ziqi Liu, Wen Zhang, Huajun Chen
学习高质量的多模态实体表示是多模态知识图 (MMKG) 表示学习的重要目标,这可以增强 MMKG 中的推理任务,例如 MMKG 补全 (MMKGC)。主要挑战在于协同建模海量三元组中隐藏的结构信息和实体的多模态特征。现有的方法侧重于设计优雅的实体级多模态融合策略,但忽略了利用不同关系上下文下模态中隐藏的多视角特征。为了解决这个问题,我们引入了一个新的框架,即模态知识专家混合 (简称 MoMoK),以学习自适应的多模态实体表示,以更好地进行 MMKGC。我们设计了关系引导的模态知识专家来获取关系感知的模态嵌入,并整合来自多模态的预测以实现联合决策。此外,我们通过最小化专家之间的互信息来解耦专家。在四个公共 MMKG 基准上的实验表明了 MoMoK 在复杂场景下的出色性能。
发布时间: 10/3/2024
查看原文
作者: Longtao Zheng, Zhiyuan Huang, Zhenghai Xue, Xinrun Wang, Bo An, Shuicheng Yan
通用虚拟代理需要处理多模态观测,掌握复杂的动作空间,并在动态的开放域环境中自我提升。然而,现有的环境通常是特定于领域的,并且需要复杂的设置,这限制了代理在现实世界环境中的开发和评估。因此,当前的评估缺乏对基本代理能力的深入分析。我们引入了 AgentStudio,一个由环境、工具和基准组成的三位一体,以解决这些问题。AgentStudio 提供了一个轻量级、交互式的环境,具有高度通用的观测和动作空间,例如视频观测和 GUI/API 动作。它集成了用于创建在线基准任务、注释 GUI 元素和标记视频中动作的工具。基于我们的环境和工具,我们精心策划了一个在线任务套件,该套件对 GUI 交互和函数调用进行基准测试,并具有高效的自动评估功能。我们还使用我们的工具重新组织现有数据集并收集新数据集,以建立三个数据集:GroundUI、IDMBench 和 CriticBench。这些数据集评估了基本代理能力,包括 GUI 接地、从视频中学习和成功检测,指出了对健壮、通用和开放式虚拟代理的需求。
发布时间: 10/3/2024
查看原文
作者: Alexander Bork, Debraj Chakraborty, Kush Grover, Jan Kretinsky, Stefanie Mohr
部分可观测马尔可夫决策过程 (POMDP) 的策略通常需要记忆。一种表示这种记忆的方法是通过自动机。我们提出了一种使用 L*-算法的修改来学习策略的自动机表示的方法。与策略的表格表示相比,得到的自动机要小得多,因此也更容易解释。此外,在学习过程中,我们的启发式方法甚至可以提高策略的性能。与直接从 POMDP 合成自动机从而解决它的方法相比,我们的方法的可扩展性要高得多。
发布时间: 10/3/2024
查看原文
作者: Mattia Segu, Luigi Piccinelli, Siyuan Li, Yung-Hsu Yang, Bernt Schiele, Luc Van Gool
在复杂场景(如协调舞蹈表演、团队运动或动态动物群体)中进行多目标跟踪面临着独特的挑战。在这些情况下,物体经常以协调的模式移动、相互遮挡,并在其轨迹中表现出长期依赖性。然而,如何对轨迹片段内的长期依赖性、轨迹片段之间的相互依赖性以及相关的时序遮挡进行建模仍然是一个关键的开放性研究问题。为此,我们引入了 Samba,这是一种新颖的线性时间序列集模型,旨在通过同步用于对每个轨迹片段建模的多个选择性状态空间来联合处理多个轨迹片段。Samba 自回归地预测每个序列的未来轨迹查询,同时维护跨轨迹片段的同步长期记忆表示。通过将 Samba 集成到跟踪传播框架中,我们提出了 SambaMOTR,这是第一个有效解决上述问题的跟踪器,包括长期依赖性、轨迹片段之间的相互依赖性和时序遮挡。此外,我们还引入了一种处理不确定观测的有效技术(MaskObs)以及一种高效的训练方案,以将 SambaMOTR 扩展到更长的序列。通过对跟踪对象的长期依赖性和相互作用进行建模,SambaMOTR 隐式地学习通过遮挡准确地跟踪对象,而无需任何手工设计的启发式方法。我们的方法在 DanceTrack、BFT 和 SportsMOT 数据集上显著超越了先前最先进的水平。
发布时间: 10/3/2024
查看原文
作者: Cheng Zhang, Yuanhao Wang, Francisco Vicente Carrasco, Chenglei Wu, Jinlong Yang, Thabo Beeler, Fernando De la Torre
我们介绍了 FabricDiffusion,一种将织物纹理从单张服装图像转移到任意形状的 3D 服装的方法。现有的方法通常通过 2D 到 3D 纹理映射或通过生成模型进行深度感知修复来合成服装表面的纹理。不幸的是,这些方法往往难以捕捉和保留纹理细节,尤其是在输入图像中存在遮挡、扭曲或姿势的情况下。受时尚行业中大多数服装都是通过用平坦的、可重复的纹理缝制缝纫图案来制作的这一观察的启发,我们将服装纹理转移的任务视为提取无扭曲的可平铺纹理材料,这些材料随后映射到服装的 UV 空间。基于这一见解,我们使用大规模合成数据集训练了一个去噪扩散模型来纠正输入纹理图像中的扭曲。此过程会生成一个平坦的纹理贴图,使之能够与现有的基于物理渲染 (PBR) 材料生成管道紧密耦合,从而允许在各种照明条件下对服装进行逼真的重新照明。我们证明 FabricDiffusion 可以从单张服装图像中转移各种特征,包括纹理图案、材料属性以及详细的印花和徽标。大量实验表明,我们的模型在合成数据和真实世界的野外服装图像上均显著优于最先进的方法,同时可推广到看不见的纹理和服装形状。
发布时间: 10/3/2024
查看原文
作者: Rishi Veerapaneni, Muhammad Suhail Saleem, Jiaoyang Li, Maxim Likhachev
传统的多智能体路径规划(MAPF)方法试图计算完全无冲突的起点-目标路径。然而,对于需要快速重新规划的 MAPF 系统,计算整个路径可能需要太长时间。解决这个问题的方法通常采用“窗口”方法,只尝试为一小段窗口时间步长找到无冲突的路径。这种调整是以不完备性为代价的;所有现有的窗口方法都可能陷入死锁或活锁。我们的主要贡献是引入了我们的框架 WinC-MAPF,用于窗口 MAPF,该框架能够实现完备性。我们的框架利用了单智能体实时启发式搜索算法的启发式更新见解,以及 MAPF 算法的智能体独立性思想。我们还开发了单步 CBS(SS-CBS),该框架使用对 CBS 的一种新颖修改来实例化。我们展示了 SS-CBS 如何仅规划一步并更新启发式,从而有效地解决现有窗口方法无法解决的难题。
发布时间: 10/3/2024
查看原文
作者: R. Thomas McCoy, Shunyu Yao, Dan Friedman, Mathew D. Hardy, Thomas L. Griffiths
在“自回归的余烬” (McCoy 等人,2023 年) 中,我们表明,几个大型语言模型 (LLM) 存在一些重要限制,这些限制归因于它们在下一个词预测中的起源。在这里,我们研究了这些问题是否在 OpenAI 的新系统 o1 中仍然存在,该系统与之前的 LLM 不同,因为它针对推理进行了优化。我们发现,在许多情况下,o1 的性能明显优于之前的 LLM,在常见任务的罕见变体(例如,从列表中每个词的第二个字母而不是第一个字母形成缩写词)上取得了特别大的改进。然而,尽管取得了这些定量上的改进,但 o1 仍然表现出我们在之前系统中观察到的相同定性趋势。具体来说,o1 与之前的 LLM 一样,对示例和任务的概率敏感,在高概率设置中比在低概率设置中表现更好,并且需要更少的“思考令牌”。这些结果表明,优化语言模型进行推理可以缓解,但可能无法完全克服语言模型的概率敏感性。
发布时间: 10/3/2024
查看原文