我们研究了当人们受到人工智能模型决策的影响,但可以反复并策略性地对这些决策做出反应时,该模型的决策公平性如何影响人们对模型的参与度和感知公平性。我们考虑了两种类型的策略性反应:人们可以决定是否继续与模型互动,以及是否投资于自己以提高他们未来从模型获得有利决策的机会。通过三个以人为对象的实验,我们发现,在决策主体与人工智能模型的策略性、重复互动中,模型的决策公平性不会改变他们与模型互动或自我提升的意愿,即使模型在显著的受保护属性上表现出不公平。然而,当模型系统性地对他们的群体存在偏见时,决策主体仍然认为人工智能模型不够公平,尤其是在提高获得有利决策资格的难度对资质较低的人群更大时。
大型语言模型(LLM)在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法面临着知识编辑中的涟漪效应挑战。具体来说,当单个事实被编辑时,模型难以准确地更新序列中相关的其他事实,而这些事实通过多跳问题链接到一系列相关事实。最近的策略已从传统的参数更新转向更灵活、计算量更小的方法,这些方法已被证明在解决涟漪效应方面更有效。上下文学习(ICL)编辑使用简单的演示“想象一下 + 新事实”来引导LLM,但在处理复杂的多跳问题时却难以奏效,因为仅靠新事实无法指定这些场景中涉及的事实链。此外,基于记忆的编辑方法需要为所有编辑和相关事实维护额外的存储空间,这需要持续更新才能保持有效性。由于这些设计限制,该挑战仍然存在,在MQuAKE-cf基准测试中,Vicuna-7B的最高准确率仅为33.8%。为了解决这个问题,我们提出了RippleCOT,这是一种新颖的ICL编辑方法,它集成了思维链(COT)推理。RippleCOT将演示结构化为“新事实,问题,思考,答案”,并加入思考组件以识别和分解问题中的多跳逻辑。这种方法有效地引导模型通过包含一系列相关事实的复杂多跳问题。全面的实验表明,RippleCOT在涟漪效应方面显著优于现有技术,准确率提升了7.8%到87.1%。
键值 (KV) 缓存是服务基于 Transformer 的自回归大型语言模型 (LLM) 的关键组件,通过存储先前计算的 KV 向量来实现更快的推理。然而,其内存消耗随序列长度和批次大小线性增长,在 LLM 部署中构成重大瓶颈。现有的缓解此问题的方法包括:(1) 在上采样阶段集成的有效注意力变体,这需要大量参数调整,因此不适用于预训练的 LLM;(2) 测试时的 KV 缓存压缩,主要通过令牌剔除策略,这通常忽略层间依赖关系,并且可能是特定于任务的。
本文介绍了一种正交的 KV 缓存压缩方法。我们提出了一种 KV 权重矩阵的低秩近似方法,允许在现有基于 Transformer 的 LLM 中进行即插即用集成,而无需模型重新训练。为了有效地在权重级别压缩 KV 缓存,我们针对层级敏感性进行了调整,并引入了一种渐进压缩策略,这得到了我们关于压缩误差如何在深度网络中累积的理论分析的支持。我们的方法旨在无需在上采样阶段进行模型调整,也无需在测试阶段进行特定于任务的分析。对各种任务中从 8B 到 70B 参数的 LLaMA 模型进行的大量实验表明,我们的方法显着减少了 GPU 内存占用,同时保持了性能。
模拟物理世界的结构和事件是神经网络的一个基本目标。在各种方法中,图网络模拟器 (GNS) 已经成为模拟物理现象的领先方法,因为其计算成本低且精度高。用于训练和评估物理模拟技术的数据集通常由研究人员自己生成,这往往导致数据量和质量有限。因此,这给准确评估这些方法的性能带来了挑战。为了应对这一挑战,我们构建了一个高质量的物理模拟数据集,涵盖了 1D、2D 和 3D 场景,以及与现有数据集相比更多轨迹和时间步长。此外,我们的工作通过开发八个完整的场景来区别于其他工作,从而显着提高了数据集的全面性。我们数据集的一个关键特征是包含精确的多体动力学,从而可以更逼真地模拟物理世界。利用我们高质量的数据集,我们对各种现有的 GNS 方法进行了系统评估。我们的数据集可在 https://github.com/Sherlocktein/MBDS 下载,为研究人员提供宝贵的资源,以增强其方法的训练和评估。
Mamba 作为一种新方法,正在克服卷积神经网络 (CNN) 和视觉Transformer (ViT) 在计算机视觉中面临的挑战。尽管 CNN 在提取局部特征方面表现出色,但它们通常难以在没有复杂架构修改的情况下捕获长距离依赖关系。相比之下,ViT 有效地建模了全局关系,但由于其自注意力机制的二次复杂度,导致计算成本很高。Mamba 通过利用选择性结构化状态空间模型来解决这些限制,以线性计算复杂度有效地捕获长距离依赖关系。本综述分析了 Mamba 模型的独特贡献、计算优势和应用,同时还指出了挑战和潜在的未来研究方向。我们提供了一个基础资源,以促进对计算机视觉中 Mamba 模型的理解和发展。有关此工作的概述,请访问 https://github.com/maklachur/Mamba-in-Computer-Vision。
精确且灵活的图像编辑仍然是计算机视觉领域的一项基本挑战。基于修改区域,大多数编辑方法可以分为两种主要类型:全局编辑和局部编辑。本文选择了两种最常见的编辑方法(即文本编辑和拖拽编辑),并分析了它们的缺点。具体而言,文本编辑方法通常无法精确描述所需的修改,而拖拽编辑方法则存在歧义。为了解决这些问题,我们提出了 **CLIPDrag**,一种新颖的图像编辑方法,它首次将文本和拖拽信号相结合,以在扩散模型上进行精确且无歧义的操作。为了充分利用这两种信号,我们将文本信号视为全局引导,将拖拽点视为局部信息。然后,我们引入了一种新颖的全局-局部运动监督方法,通过调整像 CLIP 这样的预训练语言-视觉模型,将文本信号整合到现有的基于拖拽的方法中。此外,我们还通过提出一种快速点跟踪方法来解决 CLIPDrag 中收敛速度慢的问题,该方法强制拖拽点朝正确方向移动。大量的实验表明,CLIPDrag 的性能优于现有的单一基于拖拽的方法或基于文本的方法。
我们从“智力崛起”场景探索练习中获得了关于人工智能未来可能性的见解。该练习在四年内进行了 43 次游戏,我们从参与过游戏的主持人的经验中汲取了灵感,阐明了在游戏过程中观察到的反复出现的模式、策略和决策过程。我们的分析揭示了在这个模拟环境中关于人工智能发展轨迹的关键战略考量,包括:人工智能竞赛的不稳定影响,国际合作在减轻灾难性风险中的关键作用,协调企业和国家利益的挑战,以及人工智能能力快速、变革性变化的可能性。我们强调了我们认为游戏在有效地让参与者接触到人工智能治理中固有的复杂性和不确定性方面发挥的作用。游戏过程中反复出现的主题包括:国际协议的出现、对这些协议稳健性的挑战、网络安全在人工智能发展中的关键作用,以及意外危机可能对人工智能轨迹产生重大影响的可能性。通过记录这些见解,我们旨在为在人工智能发展和治理的复杂环境中航行的政策制定者、行业领导者和研究人员提供有价值的预见。
语言模型的扩展定律传统上将训练损失量化为数据集大小和模型参数的函数,提供计算最优估计,但往往忽略了数据质量对模型泛化的影响。在本文中,我们通过提供原始公式中数据质量的微观视图——有效训练标记——扩展了对扩展定律的传统理解,我们认为这对参数受限语言模型的性能至关重要。具体来说,我们将提出的有效训练标记定义为文本两个易于计算的指标的组合:(i) 文本多样性,以及 (ii) 由教师模型衡量的合成性。我们在 2500 万到 15 亿个参数的 200 多个模型上对一组不同的采样合成数据进行了预训练,并估计了将文本质量、模型大小、训练标记和八个推理任务准确性评分联系起来的常数。我们证明了估计的常数与真实准确率的皮尔逊相关性为 +0.83,并在涉及广泛使用的数据技术(例如数据采样和合成)的场景中对其进行了分析,这些技术旨在提高数据质量。
通过指令微调,大型语言模型(LLM)可以增强其遵循指令的能力。与大多数关注数据混合的研究不同,我们的研究集中于从训练期间数据采样的角度增强模型的能力。从人类学习过程的启发中,通常通过专注于单一类型的主题进行练习,更容易掌握类似主题的解决方案,我们引入了一种名为 CommonIT 的新型指令微调策略:关注共同点的指令微调。具体来说,我们使用三个提出的指标(任务、嵌入和长度)将指令数据集聚集成不同的组。我们确保每个训练小批次或“分区”仅包含来自单个组的数据,这带来了跨小批次的数据随机性和批次内数据相似性。对 LLaMa 模型的严格测试表明,CommonIT 通过 IT 数据集(FLAN、CoT 和 Alpaca)和模型(LLaMa2-7B、Qwen2-7B、LLaMa 13B 和 BLOOM 7B)有效地增强了 LLM 的指令遵循能力。CommonIT 在通用领域(即知识、推理、多语言和编码的平均得分)使用长度指标平均提高了 2.1%,在特殊领域(即 GSM、Openfunctions 和代码)使用任务指标平均提高了 5.2%,在特定任务(即 MMLU)使用嵌入指标平均提高了 3.8%。代码可在 \url{https://github.com/raojay7/CommonIT} 获得。
扩散模型最近成功地应用于各种机器人应用中,用于从数据中学习复杂的多模态行为。然而,由于学习多机器人扩散模型的高样本复杂度,先前的工作主要局限于单机器人和小规模环境。在本文中,我们提出了一种方法,用于生成无碰撞的多机器人轨迹,这些轨迹符合底层数据分布,同时仅使用单机器人数据。我们的算法,多机器人多模型规划扩散 (MMD),通过将学习的扩散模型与经典的基于搜索的技术相结合来实现这一点——在碰撞约束下生成数据驱动的运动。为了进一步扩展,我们展示了如何组合多个扩散模型,以便在单个扩散模型无法很好地泛化的复杂环境中进行规划。我们在模拟场景中证明了我们的方法在数十个机器人的规划中的有效性,这些场景受到物流环境的启发。请在我们的补充材料中查看视频演示,以及我们的代码:https://github.com/yoraish/mmd。