源于传统的知识图谱 (KG),超关系知识图谱 (HKG) 为每个 KG 事实提供了额外的键值对(即限定符),有助于更好地限制事实的有效性。近年来,人们越来越关注对 HKG 进行图推理的研究。同时,正如最近关注时间知识图谱 (TKG) 的著作所讨论的那样,世界知识不断发展,因此在 KG 中对时间事实进行推理变得很重要。现有的主流 HKG 基准数据集没有为每个 HKG 事实明确指定时间信息。因此,几乎所有现有的 HKG 推理方法都没有专门为时间推理设计任何模块。为了更好地研究 HKG 上的时间事实推理,我们提出了一种名为超关系 TKG (HTKG) 的新型数据结构。HTKG 中的每个事实都与一个时间戳配对,明确指示其时间有效性。我们开发了两个新的 HTKG 基准数据集,即 Wiki-hy 和 YAGO-hy,并提出了一个 HTKG 推理模型,该模型可以有效地建模超关系时间事实。为了支持未来对该主题的研究,我们开源了我们的数据集和模型。
我们提出了EgoAllo,一个从头戴式设备中估计人体运动的系统。EgoAllo仅使用以自我为中心的SLAM姿态和图像,引导从条件扩散模型中采样,以估计3D人体姿态、身高和手部参数,这些参数捕捉到佩戴者在场景的异中心坐标系中的动作。为了实现这一点,我们的关键见解在于表示:我们提出了空间和时间不变性标准来提高模型性能,从中我们推导出一个头部运动条件参数化,使估计提高了18%。我们还展示了我们的系统估计的肢体如何改善手部:由此产生的运动学和时间约束导致手部估计误差比噪声单目估计降低了40%以上。项目页面:https://egoallo.github.io/
大型语言模型(LLMs)通过生成问题推理来展现出复杂的推理能力,并在自然语言处理(NLP)任务中取得了优异的性能。然而,这些推理能力通常出现在拥有数百亿参数的模型中,给实际部署带来了巨大的计算挑战。最近的研究集中在通过从商业 LLM 中进行知识蒸馏(KD)来改进开源小型模型。然而,这些研究中的大多数仅依赖于单个 LLM 的响应作为训练的金标准推理。本文提出了一种新颖的错误感知同行评审蒸馏(MAPD)方法:1)我们的方法不仅从教师那里获取金标准推理,还要求教师识别和解释学生的错误,从而提供定制的指令学习数据。2)我们设计了教师 LLM 之间的模拟同行评审过程,该过程仅选择通过接受阈值的生成推理。这降低了教师通过有缺陷的推理进行正确猜测的可能性,从而提高了指令数据质量。在数学、常识和逻辑推理任务上的综合实验和分析证明了我们方法的有效性。
近年来,分子生成模型的进步在加速科学发现,尤其是药物设计方面展现出了巨大潜力。然而,这些模型在生成高质量分子方面往往面临挑战,尤其是在需要满足特定分子特性的条件场景下。在这项工作中,我们介绍了 GeoRCG,这是一种通过整合几何表示条件来增强分子生成模型性能的通用框架。我们将分子生成过程分解为两个阶段:首先,生成一个信息丰富的几何表示;其次,根据该表示生成一个分子。与直接生成分子相比,第一阶段中相对容易生成的表示可以指导第二阶段的生成,以更目标导向、更快速的方式生成高质量的分子。利用 EDM 作为基础生成器,我们在广泛使用的 QM9 和 GEOM-DRUG 数据集上观察到无条件分子生成方面的显著质量改进。更值得注意的是,在具有挑战性的条件分子生成任务中,我们的框架比最先进的方法平均提高了 31% 的性能,突出了对语义丰富的几何表示进行条件化相对于以前方法中对单个属性值进行条件化的优越性。此外,我们还表明,借助这种表示指导,扩散步骤的数量可以减少到 100 步,同时保持比 1000 步实现的更高的生成质量,从而显著加速了生成过程。
由于机器人模拟需要人工创建各种模拟任务和场景,因此目前扩展机器人模拟仍然具有挑战性。模拟训练的策略也面临着可扩展性问题,因为许多模拟到现实的方法专注于单一任务。为了解决这些挑战,这项工作提出了 GenSim2,这是一个可扩展的框架,它利用具有多模态和推理能力的编码 LLM 来创建复杂且逼真的模拟任务,包括具有铰接对象的长期任务。为了自动生成这些任务的大规模演示数据,我们提出了在对象类别内泛化的规划和 RL 求解器。该流程可以为多达 100 个铰接任务生成数据,并使用 200 个对象,从而减少所需的人工工作量。为了利用这些数据,我们提出了一种有效的基于语言的多任务策略架构,称为本体感受点云转换器 (PPT),它从生成的演示中学习,并表现出强大的模拟到现实零样本迁移。结合提出的流程和策略架构,我们展示了 GenSim2 的一个有前景的用法,即生成的可以用于零样本迁移或与现实世界收集的数据进行联合训练,与仅在有限的真实数据上进行训练相比,这将策略性能提高了 20%。
随着大型语言模型 (LLM) 展示出越来越先进的能力,使其行为与人类价值观和偏好保持一致对于其广泛应用至关重要。虽然之前的研究集中在对有用性、无害性和诚实等原则的一般性对齐,但对考虑个人和多样化偏好的需求却被很大程度上忽视,这可能会损害定制的人类体验。为了解决这一差距,我们训练了能够“互动以对齐”的 LLM,本质上培养了 LLM 的元技能,通过多轮对话隐式推断当前用户的未言明个性化偏好,然后动态地将其后续行为和响应与这些推断出的偏好对齐。我们的方法涉及通过最初创建种子示例来建立一个由 3,310 个不同用户角色组成的多样化池,然后通过迭代自生成和过滤来扩展这些种子示例。在不同用户角色的指导下,我们利用多 LLM 协作来开发一个包含 3,000 多个树形结构的多轮对话的多轮偏好数据集。最后,我们应用监督微调和强化学习来利用该数据集增强 LLM。为了评估,我们建立了 ALOE(ALign With CustOmized PrEferences)基准,该基准包含 100 个精心选择的示例和精心设计的指标,用于衡量对话期间的定制对齐性能。实验结果证明了我们的方法在通过互动实现动态、个性化对齐方面的有效性。
模型合并旨在将多个专家模型合并成一个更强大的单一模型,这带来了许多好处,例如降低存储和服务成本、提高泛化能力以及支持分散的模型开发。尽管前景光明,但之前的研究主要集中在合并少数小型模型上。这留下了许多关于模型规模扩展的影响以及它如何与其他关键因素(例如基础模型质量和专家模型数量)相互作用以影响合并模型性能的未解之谜。本研究系统地评估了大规模模型合并的效用,检验了这些不同因素的影响。我们使用 4 种流行的合并方法(平均、任务算术、Dare 和 TIES)对完全微调的模型进行合并实验,模型大小范围从 1B 到 64B 个参数,最多合并 8 个不同的专家模型。我们评估了合并模型在专家训练任务(即保持任务)和对未见保持任务的零样本泛化能力方面的表现。我们的实验提供了关于大规模模型合并以及不同因素之间相互作用的几个新见解。首先,我们发现当专家模型来自强大的基础模型(即在零样本性能方面表现良好的模型)时,合并更有效。其次,更大的模型更容易合并。第三,合并始终提高泛化能力。值得注意的是,当合并 8 个大型专家模型时,合并模型的泛化能力通常比多任务训练模型更好。第四,当使用更大的模型时,我们可以更好地合并更多专家模型。第五,不同的合并方法在更大的规模上表现非常相似。总的来说,我们的发现揭示了模型合并的一些有趣特性,同时也强调了一些局限性。我们希望这项研究能成为未来研究大规模合并的参考点。
最近,3D 高斯 splatting 作为一种使用高斯混合模型对 3D 场景进行建模的很有前景的方法而出现。这些模型的主要优化方法依赖于通过可微渲染管道反向传播梯度,这在处理连续数据流时会遇到灾难性遗忘问题。为了解决这一局限性,我们提出了变分贝叶斯高斯 splatting (VBGS),这是一种将训练高斯 splat 作为模型参数上的变分推理的新方法。通过利用多元高斯的共轭特性,我们推导出一个闭式变分更新规则,允许从部分的、连续的观测中进行有效的更新,而无需使用重放缓冲区。我们的实验表明,VBGS 不仅在静态数据集上取得了最先进的性能,而且还能够从连续流式 2D 和 3D 数据中进行持续学习,从而大幅提高了这种场景下的性能。
自动驾驶软件每秒产生海量数据,软件开发组织将这些数据以日志的形式保存,用于未来的分析和测试。然而,鉴于数据的庞大规模,在车辆日志集合中定位特定场景可能具有挑战性。编写正确的 SQL 查询以查找这些场景要求工程师具备强大的 SQL 背景知识和对相关数据库的了解,这进一步复杂化了搜索过程。本文提出并评估了一种管道,该管道允许使用自然语言描述而不是 SQL 在日志集合中搜索特定场景。生成的描述由在 Zenseact 工作的车辆日志工程师进行评估,评分范围为 1 到 5。我们的方法获得了 3.3 的平均得分,证明了使用多模型架构来改进软件开发工作流程的潜力。我们还提供了一个界面,可以可视化查询过程并可视化结果。
人工智能(AI)在各个领域都取得了重大发展并得到广泛应用。随着 AI 系统日益普及,它们也成为威胁行为者操纵其功能以达到恶意目的的目标。这篇关于攻击性 AI 的综述论文将全面涵盖与针对 AI 系统的攻击以及利用 AI 系统相关的各个方面。它将深入探讨攻击性 AI 实践对不同领域的影响,包括消费者、企业和公共数字基础设施。论文将探讨对抗性机器学习、针对 AI 模型、基础设施和界面的攻击,以及信息收集、社会工程和武器化 AI 等攻击性技术。此外,它还将讨论攻击性 AI 的后果和影响,并提供案例研究、见解和进一步研究的途径。