arXiv 论文列表

作者: Cong Wang, Aoming Liang, Fei Han, Xinyu Zeng, Zhibin Li, Dixia Fan, Jens Kober

基于强化学习的四足机器人能够在各种地形上出色地完成任务，但由于复杂的水下环境，它们仍然缺乏在水中游泳的能力。本文介绍了一种用于两栖四足机器人的数据驱动流体动力学模型的开发和评估，旨在增强它们在复杂和动态水下环境中的适应能力。该模型利用神经常微分方程 (ODE) 结合注意力机制，精确地处理和解释实时传感器数据。该模型使四足机器人能够理解和预测复杂的环境模式，从而促进稳健的决策策略。我们利用实时传感器数据，捕捉各种环境和内部状态参数来训练和评估我们的模型。评估的重点是测试四足机器人在不同流体动力学条件下的性能，并评估其在不同速度和流体动力学条件下的能力。结果表明，该模型能够有效地学习和适应不同的条件，从而能够预测力状态并增强各种实际场景中的自主机器人行为。

发布时间: 10/2/2024

查看原文

MCGM：掩码条件文本到图像生成模型

作者: Rami Skaik, Leonardo Rossi, Tomaso Fontanini, Andrea Prati

近年来，生成模型的进步彻底改变了人工智能领域，使得能够生成高度逼真且详细的图像。在本研究中，我们提出了一种新颖的掩码条件文本到图像生成模型（MCGM），它利用条件扩散模型的强大功能来生成具有特定姿势的图片。我们的模型建立在 Break-a-scene [1] 模型的成功基础上，该模型使用包含多个主题的单个图像生成新场景，并结合了掩码嵌入注入，允许对生成过程进行条件化。通过引入这种额外的控制级别，MCGM 提供了一种灵活直观的方法来生成从单个图像中学习的一个或多个主题的特定姿势，使用户能够根据自己的要求影响输出。通过广泛的实验和评估，我们证明了我们提出的模型在生成满足预定义掩码条件的高质量图像以及改进当前 Break-a-scene 生成模型方面的有效性。

发布时间: 10/2/2024

查看原文

版权争议与生成式人工智能安全概率分析

作者: Hiroaki Chiba-Okabe

本文提出了一种基于随机世界方法，将相关司法原则纳入一个连贯框架内的概率方法，用于分析版权侵权纠纷。该方法对关键证据原则进行了结构化分析，特别强调了“反比规则”——这一被一些法院采用的有争议的理论。尽管该规则面临着重大批评，但正式证明表明其有效性，前提是其定义正确。此外，本文还考察了生成式人工智能带来的版权风险加剧问题，强调了生成模型对版权材料的大量访问如何增加了侵权风险。利用概率方法，评估了先前提出的潜在缓解策略——“近似无访问（NAF）”条件。分析表明，虽然NAF条件缓解了一些侵权风险，但在某些情况下其合理性和有效性值得怀疑。这些发现表明，严格的概率方法可以加深我们对版权法理及其与新兴技术相互作用的理解。

发布时间: 10/2/2024

查看原文

对抗性后缀也可能是特征！

作者: Wei Zhao, Zhe Li, Yige Li, Jun Sun

尽管在安全对齐方面付出了持续不断的努力，但像 GPT-4 和 LLaMA 3 这样的大型语言模型 (LLM) 仍然容易受到越狱攻击，这些攻击会导致有害行为，包括由对抗性后缀触发的行为。基于先前研究，我们假设这些对抗性后缀并非仅仅是错误，而是可能代表可以主导 LLM 行为的特征。为了评估这一假设，我们进行了多项实验。首先，我们证明了良性特征可以有效地被用作对抗性后缀，即我们开发了一种特征提取方法，以从良性数据集中提取样本无关的特征，并以后缀的形式展示这些后缀可能会有效地损害安全对齐。其次，我们表明，从越狱攻击生成的对抗性后缀可能包含有意义的特征，即，将相同的后缀附加到不同的提示会导致响应表现出特定的特征。第三，我们表明，这种良性但会损害安全的特征可以通过微调轻松引入，而只需使用良性数据集，即，即使在没有有害内容的情况下。这突出了训练数据中占主导地位的良性特征带来的严重风险，并呼吁进一步研究以加强 LLM 安全对齐。我们的代码和数据可在 \url{https://github.com/anonymous} 获取。

发布时间: 10/2/2024

查看原文

用于分子性质预测的可扩展多任务迁移学习

作者: Chanhui Lee, Dae-Woong Jeong, Sung Moon Ko, Sumin Lee, Hyunseung Kim, Soorin Yim, Sehui Han, Sungwoong Kim, Sungbin Lim

大型语言模型 (LLMs) 已经在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLMs 的方法...

发布时间: 10/2/2024

查看原文

层级KV缓存管理：优化大型语言模型服务

作者: Yi Xiong, Hao Wu, Changxu Shao, Ziqing Wang, Rui Zhang, Yuhong Guo, Junping Zhao, Ke Zhang, Zhenxuan Pan

大型语言模型（LLM）不断扩展的上下文窗口极大地增强了其在各种应用中的能力，但也带来了保持低延迟的重大挑战，尤其是在首个词符时间（TTFT）方面。本文发现，随着上下文长度的增加，TTFT 的急剧上升主要由排队延迟驱动，而排队延迟是由对 GPU 键值 (KV) 缓存分配不断增长的需求与有限的 KV 缓存块可用性之间的冲突造成的。为了解决这个问题，我们提出了 LayerKV，这是一种简单而有效的插件方法，它能够有效地降低 TTFT，而无需额外的硬件或牺牲输出性能，同时与现有的并行策略和调度技术无缝集成。具体而言，LayerKV 引入了分层 KV 块分配、管理和卸载，以便对系统内存进行细粒度控制，并结合了 SLO 感知调度器来优化整体服务级别目标 (SLO)。对从 70 亿到 700 亿参数的代表性模型进行的综合评估（跨各种 GPU 配置）表明，LayerKV 将 TTFT 延迟提高了 11 倍，并将 SLO 违规率降低了 28.7%，从而显著提升了用户体验。

发布时间: 10/2/2024

查看原文

ManiSkill3：面向泛化具身智能的 GPU 并行机器人仿真与渲染

作者: Stone Tao, Fanbo Xiang, Arth Shukla, Yuzhe Qin, Xander Hinrichsen, Xiaodi Yuan, Chen Bao, Xinsong Lin, Yulin Liu, Tse-kai Chan, Yuan Gao, Xuanlin Li, Tongzhou Mu, Nan Xiao, Arnav Gurha, Zhiao Huang, Roberto Calandra, Rui Chen, Shan Luo, Hao Su

仿真技术为机器人学习提供了前所未有的可扩展计算方法。然而，许多现有的仿真框架通常只支持有限的场景/任务，并且缺乏扩展通用机器人技术和仿真到现实的关键特性。我们介绍并开源了 ManiSkill3，这是一个最快的状态-视觉 GPU 并行机器人模拟器，它具有丰富的接触物理特性，旨在实现通用操控。ManiSkill3 支持许多方面的 GPU 并行，包括仿真+渲染、异构仿真、点云/体素视觉输入等等。与其他平台相比，ManiSkill3 上的仿真渲染速度可以快 10-1000 倍，GPU 内存使用量减少 2-3 倍，在基准环境中可以达到 30,000+ FPS，这是因为系统中的 Python/PyTorch 开销最小，在 GPU 上进行仿真，以及使用 SAPIEN 并行渲染系统。以前需要数小时才能完成的训练现在只需几分钟即可完成。我们还提供了最全面的 GPU 并行环境/任务范围，涵盖 12 个不同的领域，包括但不限于移动操控（用于绘画、人形机器人等任务）、以及由艺术家设计或来自现实世界数字孪生的逼真场景中的灵巧操控。此外，还提供了来自运动规划、强化学习和遥操作的数百万个演示帧。ManiSkill3 还提供了一套全面的基线，涵盖了流行的强化学习和从演示中学习的算法。

发布时间: 10/2/2024

查看原文

后验均值修正流：迈向最小均方误差的逼真图像恢复

作者: Guy Ohayon, Tomer Michaeli, Michael Elad

基于真实照片的图像修复算法通常通过失真度量（例如，PSNR、SSIM）和感知质量度量（例如，FID、NIQE）进行评估，目标是在不影响感知质量的情况下，尽可能降低失真。为了实现这一目标，当前方法通常尝试从后验分布中采样，或优化失真损失（例如，MSE）和感知质量损失（例如，GAN）的加权和。与之前的工作不同，本文专门关注在完美感知指标约束下最小化 MSE 的最佳估计器，即重建图像的分布等于真实图像的分布。最近的理论结果表明，可以通过将后验均值预测（MMSE 估计）最佳地传输到真实图像的分布来构建这种估计器。受此结果的启发，我们引入了后验均值校正流 (PMRF)，这是一种简单但非常有效的算法，它近似于此最佳估计器。具体来说，PMRF 首先预测后验均值，然后使用一个校正流模型将结果传输到高质量图像，该模型近似于所需的最佳传输映射。我们研究了 PMRF 的理论效用，并证明它在各种图像修复任务中始终优于以前的方法。

发布时间: 10/2/2024

查看原文

TikGuard：基于深度学习Transformer的儿童不适宜TikTok内容检测方案

作者: Mazen Balat, Mahmoud Essam Gabr, Hend Bakr, Ahmed B. Zaky

短视频平台，如 TikTok 的兴起，给保护年轻观众免受不当内容的侵害带来了新的挑战。传统的内容审核方法往往难以应对海量且快速变化的用户生成视频，增加了儿童接触有害内容的风险。本文介绍了 TikGuard，一种基于 Transformer 的深度学习方法，旨在检测和标记 TikTok 上不适合儿童的内容。通过使用专门策划的数据集 TikHarm 并利用先进的视频分类技术，TikGuard 达到了 86.7% 的准确率，在类似情况下显示出比现有方法显著的改进。虽然由于 TikHarm 数据集的独特性，直接比较受到限制，但 TikGuard 的性能突出了其在增强内容审核方面的潜力，有助于为未成年人提供更安全的在线体验。这项研究强调了 Transformer 模型在视频分类中的有效性，并为该领域未来的研究奠定了基础。

发布时间: 10/2/2024

查看原文

重审证据深度学习中的必要与非必要设置

作者: Mengyuan Chen, Junyu Gao, Changsheng Xu

证据深度学习 (EDL) 是一种新兴的用于不确定性估计的方法，它在单次前向传递中提供可靠的预测不确定性，引起了广泛关注。EDL 基于主观逻辑，从神经网络中推导出狄利克雷浓度参数，以构建狄利克雷概率密度函数 (PDF)，对类概率分布进行建模。尽管 EDL 取得了成功，但它包含了一些非必要的设置：（1）在模型构建中，通常被忽略的先验权重参数被固定为类别数，而它的值实际上会影响推导预测分数时证据比例与其大小之间的平衡。（2）在模型优化中，经验风险包含一个方差最小化优化项，该项会将 PDF 偏向狄拉克 delta 函数，可能加剧过自信。（3）此外，结构风险通常包括一个 KL 散度最小化正则化项，其优化方向超出了预期目的，与常识相矛盾，从而减少了证据大小所携带的信息。因此，我们提出了 Re-EDL，它是 EDL 的一个简化但更有效的变体，通过放宽非必要设置并保留必要设置，即采用主观逻辑中的投影概率。具体来说，Re-EDL 将先验权重视为可调整的超参数，而不是固定标量，并通过弃用方差最小化优化项和散度正则化项，直接优化狄利克雷 PDF 的期望。大量的实验和最先进的性能验证了我们方法的有效性。源代码可在 https://github.com/MengyuanChen21/Re-EDL 获取。

发布时间: 10/2/2024

查看原文