arXiv 论文列表

作者: Saif Punjwani, Larry Heck

随着虚拟代理在人机交互中越来越普遍，实时生成逼真且符合语境的姿态仍然是一项重大挑战。虽然神经渲染技术在静态脚本方面取得了实质性进展，但其在人机交互中的适用性仍然有限。为了解决这个问题，我们引入了大型肢体语言模型（LBLMs）并提出了LBLM-AVA，这是一种新颖的LBLM架构，它将Transformer-XL大型语言模型与并行扩散模型相结合，以从多模态输入（文本、音频和视频）生成类人姿态。LBLM-AVA包含几个增强其姿态生成能力的关键组件，例如多模态到姿态的嵌入、具有重新定义的注意力机制的增强型序列到序列映射、用于姿态序列一致性的时间平滑模块以及用于增强真实感的基于注意力的细化模块。该模型在我们大型的专有开源数据集Allo-AVA上进行训练。LBLM-AVA在生成栩栩如生且符合语境的姿态方面取得了最先进的性能，Fr\'echet姿态距离（FGD）降低了30%，Fr\'echet初始距离比现有方法提高了25%。

发布时间: 10/23/2024

查看原文

电子商务中多智能体信任与声誉评估的分布式在线终身学习 (DOL3)

作者: Hariprasauth Ramamoorthy, Shubhankar Gupta, Suresh Sundaram

在以公民为中心的環境（如电子商务）中，服务提供者的信任和声誉评估对于维护代理之间交互的完整性至关重要。服务提供者和服务消费者代理的目标和目标与各自公民（最终用户）的目标相关。提供者代理通常追求自私的目标，这可能导致服务质量高度波动，从而导致环境的非平稳性。随着时间的推移，活跃的服务提供者数量往往会发生变化，从而导致开放的环境。这需要对信任和声誉进行快速和持续的评估。环境中大量的服务提供者需要分布式多代理信任和声誉评估。本文解决了非平稳环境中涉及提供者和消费者之间交易的多代理信任和声誉评估问题。在这种情况下，观察者代理进行评估，并在网络上相互交流其评估的信任分数。我们提出了一种新颖的分布式在线终身学习 (DOL3) 算法，该算法涉及对提供者的信任和声誉分数进行实时快速学习。每个观察者都会进行自适应学习和加权融合过程，将他们自己的评估与他们通信网络中的邻居的评估结合起来。模拟研究表明，通常涉及训练模型以评估代理的信任和声誉的现有方法在这样的环境中效果不佳。模拟结果表明，所提出的 DOL3 算法优于这些方法，并且有效地处理了此类环境中的波动。从统计评估来看，很明显，DOL3 在 90% 的情况下比其他模型表现更好。

发布时间: 10/23/2024

查看原文

Allo-AVA：一个用于自中心化身手势动画的大规模多模态对话式人工智能数据集

作者: Saif Punjwani, Larry Heck

高质量的多模态训练数据稀缺严重阻碍了虚拟环境中对话式AI逼真化身动画的创建。现有的数据集往往缺乏语音、面部表情和身体动作之间错综复杂的同步，而这些同步是人类自然交流的特征。为了解决这一关键差距，我们引入了Allo-AVA，这是一个大规模数据集，专门为异中心（第三人称视角）环境下的文本和音频驱动的化身手势动画而设计。Allo-AVA包含约1,250小时的各种视频内容，包括音频、文字记录和提取的关键点。Allo-AVA独特地将这些关键点映射到精确的时间戳，从而能够准确地复制人类动作（身体和面部手势）与语音同步。这种全面的资源能够开发和评估更自然、更具上下文感知的化身动画模型，有可能改变从虚拟现实到数字助理的各种应用。

发布时间: 10/23/2024

查看原文

召唤语义相似性

作者: Tian Yu Liu, Stefano Soatto

样本表达之间的语义相似度衡量了它们潜在“含义”之间的距离。这些含义本身通常由文本表达来表示，而文本表达往往不足以区分细粒度的概念。我们提出了一种新方法，该方法基于图像而不是其他可以重新表述的文本表达来衡量文本表达之间的语义相似度。虽然人类无法做到这一点，但生成模型使我们能够轻松地可视化和比较由文本提示生成的图像或其分布。因此，我们将两个文本表达之间的语义相似度简单地定义为它们诱导的图像分布或“意象”之间的距离。我们证明，通过选择由每个文本表达诱导的反向时间扩散随机微分方程 (SDE) 之间的 Jensen-Shannon 散度，可以通过蒙特卡罗采样直接计算它。我们的方法为语义相似度提供了一个新视角，它不仅与人类标注的分数一致，而且还为评估文本条件生成模型开辟了新的途径，同时提供了对其学习表示的更好的可解释性。

发布时间: 10/23/2024

查看原文

基于字节的子词嵌入：在不牺牲准确性和复杂度的情况下提升隐私

作者: Mengjiao Zhang, Jia Xu

尽管自然语言处理模型极大地影响着我们的生活，但人们越来越担心隐私侵犯。虽然联邦学习增强了隐私，但攻击者可以通过利用模型参数和梯度来恢复私有训练数据。因此，防止此类嵌入攻击仍然是一个开放的挑战。为了解决这个问题，我们提出了字节级子词嵌入 (SEB)，并使用深度神经网络将子词编码为字节序列，使输入文本恢复更加困难。重要的是，我们的方法只需要 $256$ 字节的词汇表，而保持相同输入长度的效率。因此，我们的解决方案通过在不牺牲效率或准确性的情况下保护隐私，优于传统方法。我们的实验表明，SEB 可以有效地防止基于嵌入的攻击从联邦学习中恢复原始句子。同时，我们验证了 SEB 在机器翻译、情感分析和语言建模中获得了与标准子词嵌入方法相当甚至更好的结果，并且时间和空间复杂度更低。

发布时间: 10/23/2024

查看原文

面向长航程太空飞行可靠的离线个人 AI 助理

作者: Oliver Bensch, Leonie Bensch, Tommy Nilsson, Florian Saling, Wafa M. Sadri, Carsten Hartmann, Tobias Hecking, J. Nathan Kutz

随着人类为月球和火星的新的任务做准备，宇航员需要以更大的自主性进行操作，因为通信延迟使得地球上的实时支持变得困难。例如，火星和地球之间的消息可能需要长达24分钟的时间才能到达，这使得快速响应变得不可能。这种限制对宇航员来说是一个挑战，他们必须依靠原位工具来访问来自航天器传感器、漫游车和卫星的大量数据，这些数据通常是零散的并且难以使用。为了弥合这一差距，正在开发像火星探索遥测驱动信息系统 (METIS) 这样的系统。METIS 是一款人工智能助手，旨在处理日常任务、监控航天器系统和检测异常，同时减少对任务控制的依赖。当前的生成式预训练转换器 (GPT) 模型虽然功能强大，但在安全关键环境中却难以发挥作用。它们可能会生成看似合理但错误的响应，这种现象被称为“幻觉”，可能会危及宇航员。为了克服这些限制，本文提出通过整合 GPT、检索增强生成 (RAG)、知识图谱 (KG) 和增强现实 (AR) 来增强像 METIS 这样的系统。其理念是让宇航员能够以更直观的方式与他们的数据交互，使用自然语言查询并通过 AR 可视化实时信息。KG 将用于轻松访问实时遥测和多模式数据，确保宇航员在正确的时间拥有正确的信息。通过将人工智能、KG 和 AR 相结合，这个新的系统将使宇航员能够在未来的太空任务中更加自主、安全和高效地工作。

发布时间: 10/23/2024

查看原文

基于演进行为树的鲁棒网络防御代理设计

作者: Nicholas Potteiger, Ankita Samaddar, Hunter Bergstrom, Xenofon Koutsoukos

现代网络防御可以从使用自主系统中获益，将繁琐且耗时的工作卸载到具有标准和学习功能组件的代理上。这些代理在关键网络基础设施上运行，需要具备鲁棒性和可信赖性，以确保防御适应性强的网络攻击者，同时为其行动和网络活动提供解释。然而，学习功能组件通常使用模型（例如深度神经网络），这些模型在其高级决策中并不透明，从而导致保证方面的挑战。此外，网络防御代理必须以反应式的方式执行复杂的长期防御任务，这涉及协调多个相互依赖的子任务。行为树以其在建模可解释、反应式和模块化代理策略（具有学习功能组件）方面的成功而闻名。在本文中，我们开发了一种使用具有学习功能组件的行为树设计自主网络防御代理的方法，我们将其称为进化行为树 (EBT)。我们使用新颖的抽象网络环境学习 EBT 的结构，并优化学习功能组件以进行部署。学习功能组件经过优化，能够适应各种网络攻击并部署安全机制。学习到的 EBT 结构在一个模拟网络环境中进行评估，它有效地缓解了威胁并增强了网络可视性。为了部署，我们开发了一种软件架构，用于在计算机网络防御场景中评估基于 EBT 的代理。我们的结果表明，基于 EBT 的代理对适应性强的网络攻击具有鲁棒性，并为解释其决策和行动提供了高级解释。

发布时间: 10/23/2024

查看原文

SPA：3D 空间感知赋能有效具身表征

作者: Haoyi Zhu, Honghui Yang, Yating Wang, Jiange Yang, Limin Wang, Tong He

本文介绍了 SPA，一个新颖的表征学习框架，强调了具身 AI 中 3D 空间感知的重要性。我们的方法利用可微神经渲染技术对多视图图像进行处理，赋予了普通视觉 Transformer (ViT) 本质上的空间理解能力。我们提供了迄今为止对具身表征学习最全面的评估，涵盖了 8 个模拟器中 268 个任务，包括单任务和语言条件多任务场景中的各种策略。结果令人信服：SPA 始终优于 10 多种最先进的表征方法，包括专门为具身 AI、视觉中心任务和多模态应用设计的那些方法，同时使用更少的训练数据。此外，我们进行了一系列真实世界实验，以确认其在实际场景中的有效性。这些结果突出了 3D 空间感知对于具身表征学习的关键作用。我们最强大的模型需要超过 6000 个 GPU 小时进行训练，我们承诺开源所有代码和模型权重，以促进具身表征学习的未来研究。项目页面：https://haoyizhu.github.io/spa/。

发布时间: 10/14/2024

查看原文

面向协同、泛化、高效的机器人操控双系统

作者: Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao

对多功能机器人系统在各种动态环境中运行的日益增长的需求强调了通才策略的重要性，该策略利用大型跨嵌入数据语料库来促进广泛的适应性和高级推理。然而，通才在推理效率和训练成本方面面临挑战。相反，专家策略针对特定领域数据进行定制，在任务级精度和效率方面表现出色。然而，它缺乏对各种应用的泛化能力。受这些观察结果的启发，我们引入了 RoboDual，这是一个协同的双系统，它补充了通才和专家策略的优点。我们设计了一个基于扩散变换器的专家，用于多步动作展开，它巧妙地以基于视觉-语言-动作 (VLA) 的通才的高级任务理解和离散动作输出为条件。与 OpenVLA 相比，RoboDual 在现实世界环境中实现了 26.7% 的改进，在 CALVIN 上实现了 12% 的提升，仅通过引入具有 2000 万个可训练参数的专家策略就实现了这一点。它仅使用 5% 的演示数据就能保持强大的性能，并在现实世界部署中实现了 3.8 倍更高的控制频率。代码将公开发布。我们的项目页面位于：https://opendrivelab.com/RoboDual/

发布时间: 10/14/2024

查看原文

ONCOPILOT：面向实体瘤评估的可提示 CT 基础模型

作者: L\'eo Machado, H\'el\`ene Philippe, \'Elodie Ferreres, Julien Khlaut, Julie Dupuis, Korentin Le Floch, Denis Habip Gatenyo, Pascal Roux, Jules Gr\'egory, Maxime Ronot, Corentin Dancette, Daniel Tordjman, Pierre Manceron, Paul H\'erent

癌症发生是一个多形态的现象，肿瘤出现在不同的部位，并呈现出复杂而多样的形状。在研究和临床实践的关键交汇点，它需要精确灵活的评估。然而，现有的生物标志物，例如 RECIST 1.1 的长轴和短轴测量，无法捕捉到这种复杂性，只能提供肿瘤负荷的近似估计，并对更复杂的过程进行简化表示。此外，现有的监督式 AI 模型在解决肿瘤呈现的多样性方面面临挑战，限制了它们的临床实用性。这些局限性源于注释的稀缺以及模型对狭义定义的任务的关注。为了解决这些挑战，我们开发了 ONCOPILOT，这是一个交互式的放射学基础模型，它在约 7500 例涵盖全身的 CT 扫描（包括正常解剖结构和各种肿瘤病例）上进行训练。ONCOPILOT 使用点触和边界框等视觉提示执行 3D 肿瘤分割，性能超过最先进的模型（例如 nnUnet），并在 RECIST 1.1 测量中达到放射科医生水平的准确性。这个基础模型的关键优势在于它能够在保持放射科医生参与的情况下超越最先进的性能，这是以前模型无法实现的功能。当放射科医生交互式地细化分割时，准确性会进一步提高。ONCOPILOT 还加速了测量过程并减少了阅读者间的差异，促进了体积分析，并为更深入的见解解锁了新的生物标志物。预计这款 AI 助手将提高 RECIST 1.1 测量的精度，释放体积生物标志物的潜力，改善患者分层和临床护理，同时无缝集成到放射学工作流程中。

发布时间: 10/14/2024

查看原文