arXiv 论文列表

作者: Zhuoran Li, Xu Sun, Wanyu Lin, Jiannong Cao

可解释的分子性质预测对于药物发现和材料科学等多个科学领域至关重要。尽管线性模型具有内在的可解释性，但它们难以捕捉复杂的非线性模式。另一方面，大型语言模型 (LLM) 通过强大的推理能力产生准确的预测，但无法为其预测提供化学意义上的解释。这项工作提出了一种名为 MoleX 的新框架，该框架利用 LLM 知识构建一个简单但强大的线性模型，以实现具有忠实解释的准确分子性质预测。MoleX 的核心是使用一个简单的线性模型来模拟复杂的分子结构-性质关系，并通过 LLM 知识和精心设计的校准策略进行增强。具体来说，为了从 LLM 嵌入中提取最大量的与任务相关的知识，我们采用受信息瓶颈启发的微调和稀疏诱导降维。然后，这些信息丰富的嵌入用于拟合线性模型以进行可解释的推断。此外，我们引入了残差校准来解决线性模型对复杂的 LLM 嵌入表达不足导致的预测误差，从而恢复 LLM 的预测能力并提高整体准确性。从理论上讲，我们提供了数学基础来证明 MoleX 的可解释性。大量实验表明，MoleX 在分子性质预测方面优于现有方法，在预测性能、可解释性和效率方面树立了新的里程碑。特别是，MoleX 支持 CPU 推理并加速大规模数据集处理，在性能上比 LLM 快 300 倍，参数少 100,000 个。此外，校准将模型性能提高了 12.7%，而不会影响可解释性。

发布时间: 10/14/2024

查看原文

3D 生成对抗网络中的一步生成域适应

作者: Ziqiang Li, Yi Wu, Chaoyue Wang, Xue Rui, Bin Li

三维感知图像生成需要大量的训练数据来确保训练稳定并降低过拟合风险。本文首先考虑一种名为单样本三维生成域适应 (GDA) 的新任务，旨在将预训练的三维生成器从一个域迁移到另一个域，仅依赖于一张参考图像。单样本三维 GDA 的特点是追求特定属性，即高保真度、高多样性、跨域一致性和多视角一致性。本文介绍了 3D-Adapter，这是首个单样本三维 GDA 方法，用于实现多样化和逼真的生成。我们的方法首先明智地选择一个受限的权重集进行微调，然后利用四个先进的损失函数来促进适应。还实施了一种高效的渐进式微调策略来增强适应过程。这三种技术组件的协同作用使 3D-Adapter 能够在所有所需的三维 GDA 属性方面都取得了显著的性能，这在定量和定性上都得到了证实。此外，3D-Adapter 无缝地将自身功能扩展到零样本场景，并保留了在预训练生成器的潜在空间中进行插值、重建和编辑等关键任务的潜力。代码将在 https://github.com/iceli1007/3D-Adapter 上提供。

发布时间: 10/14/2024

查看原文

SOLD：基于槽位的目标中心隐式动力学强化学习

作者: Malte Mosbach, Jan Niklas Ewertz, Angel Villar-Corrales, Sven Behnke

学习一个潜在动力学模型可以提供一个任务无关的表示，用于描述智能体对其环境的理解。将这种知识应用于基于模型的强化学习，有可能通过在想象的展开中学习来提高样本效率，从而优于无模型方法。此外，由于潜在空间作为行为模型的输入，世界模型学习到的信息性表示有助于有效地学习所需技能。大多数现有方法依赖于环境状态的整体表示。相比之下，人类会推理物体及其相互作用，预测行动将如何影响其周围环境的特定部分。受此启发，我们提出了面向对象的潜在动力学的槽注意力（SOLD），这是一种新颖的算法，可以从像素输入中以无监督的方式学习面向对象的动力学模型。我们证明了结构化的潜在空间不仅提高了模型的可解释性，而且还为行为模型提供了宝贵的输入空间，用于推理。我们的结果表明，SOLD 在一系列基准机器人环境中优于 DreamerV3，这是一种最先进的基于模型的 RL 算法，这些环境评估了关系推理和低级操作能力。视频可在 https://slot-latent-dynamics.github.io/ 上获得。

发布时间: 10/14/2024

查看原文

StructRAG：通过推理时混合信息结构化增强大型语言模型的知识密集型推理能力

作者: Zhuoqun Li, Xuanang Chen, Haiyang Yu, Hongyu Lin, Yaojie Lu, Qiaoyu Tang, Fei Huang, Xianpei Han, Le Sun, Yongbin Li

检索增强生成 (RAG) 是在许多知识型任务中有效增强大型语言模型 (LLM) 的关键手段。然而，现有的 RAG 方法在知识密集型推理任务中举步维艰，因为这些任务所需的有效信息严重分散。这种特征使得现有的 RAG 方法难以准确识别关键信息，并对这种噪声增强进行全局推理。在本文中，受人类在处理知识密集型推理时将原始信息转换为各种结构化知识的认知理论的启发，我们提出了一种新的框架 StructRAG，它可以识别当前任务的最佳结构类型，将原始文档重建成这种结构化格式，并根据生成的结构推断答案。在各种知识密集型任务上的大量实验表明，StructRAG 实现了最先进的性能，特别是在具有挑战性的场景中表现出色，证明了它作为一种有效解决方案的潜力，可以增强 LLM 在复杂现实世界应用中的能力。

发布时间: 10/14/2024

查看原文

毒药基准：评估大型语言模型对数据中毒的脆弱性

作者: Tingchen Fu, Mrinank Sharma, Philip Torr, Shay B. Cohen, David Krueger, Fazl Barez

偏好学习是将当前大型语言模型 (LLM) 对齐的关键组成部分，但这一过程容易受到数据中毒攻击。为了解决这一问题，我们引入了 PoisonBench，这是一个用于评估大型语言模型在偏好学习过程中对数据中毒的敏感性的基准。数据中毒攻击可以操纵大型语言模型的响应，使其包含隐藏的恶意内容或偏差，可能导致模型在表面上正常运行的同时生成有害或意外的输出。我们在八种现实场景中部署了两种不同的攻击类型，评估了 21 种广泛使用的模型。我们的研究结果揭示了令人担忧的趋势：(1) 扩大参数大小本身并不能增强对中毒攻击的抵抗力；(2) 攻击的影响与数据中毒率之间存在对数线性关系；(3) 数据中毒的影响可以推广到未包含在中毒数据中的外推触发器。这些结果揭示了当前偏好学习技术的弱点，突出了迫切需要更强大的防御措施来抵御恶意模型和数据操纵。

发布时间: 10/14/2024

查看原文

DCNet：一种面向 DVL 的数据驱动框架

作者: Zeev Yampolsky, Itzik Klein

自主水下航行器 (AUV) 是一种应用于各种场景的水下机器人平台。AUV 的导航解决方案很大程度上依赖于惯性传感器和多普勒速度对数 (DVL) 的融合，其中后者提供精确的速度更新。为了确保精确的导航，在任务开始之前会进行 DVL 校准以估计其误差项。在校准过程中，AUV 遵循复杂的轨迹并使用非线性估计滤波器来估计误差项。本文介绍了 DCNet，这是一个数据驱动的框架，它以一种创新的方式利用了二维卷积核。利用 DCNet 和我们提出的 DVL 误差模型，我们提供了一种快速的校准程序。这可以应用于具有近似恒定速度的轨迹。为了训练和测试我们提出的方法，使用了包含 276 分钟真实 DVL 记录测量的数据集。我们证明了与基线方法相比，使用低性能 DVL 时，精度平均提高了 70%，校准时间提高了 80%。由于这些改进，采用低成本 DVL 的 AUV 可以实现更高的精度、更短的校准时间，并应用简单的近似恒定速度校准轨迹。我们的研究结果也为利用低成本、高精度 DVL 的海洋机器人开辟了新的应用。

发布时间: 10/14/2024

查看原文

M$^3$ 填充：面向缺失值填充的掩码引导表示学习

作者: Zhongyi Yu, Zhenghao Wu, Shuhan Zhong, Weifeng Su, S. -H. Gary Chan, Chul-Ho Lee, Weipeng Zhuo

缺失值是数据分析和机器学习中普遍存在的问题，给数据分析和机器学习带来了重大挑战。这个问题需要开发一种有效的插补方法来准确地填充缺失值，从而提高数据集的整体质量和效用。然而，现有的插补方法在嵌入初始化阶段没有明确考虑数据中的“缺失”信息，并且在学习过程中没有对纠缠的特征和样本相关性进行建模，因此导致性能低下。我们提出了 M$^3$-Impute，旨在通过新颖的掩码方案明确利用缺失信息和这种相关性。M$^3$-Impute 首先将数据建模为二部图，并使用图神经网络来学习节点嵌入，其中改进的嵌入初始化过程直接整合了缺失信息。然后，通过 M$^3$-Impute 的新颖特征相关单元 (FRU) 和样本相关单元 (SRU) 对它们进行优化，这些单元有效地捕获了用于插补的特征和样本相关性。在三种不同的缺失设置下，对 25 个基准数据集进行的实验结果表明，M$^3$-Impute 的有效性，平均而言，在 20 个最佳和 4 个次佳 MAE 得分上取得了成功。

发布时间: 10/14/2024

查看原文

视觉语言模型：从人类演示视频到机器人行动计划

作者: Beichen Wang, Juexiao Zhang, Shuwen Dong, Irving Fang, Chen Feng

视觉语言模型 (VLM) 近年来因其在常识推理和泛化能力方面的优势被应用于机器人领域。现有工作已将 VLM 应用于从自然语言指令中生成任务和运动规划，并模拟用于机器人学习的训练数据。在本研究中，我们探索了利用 VLM 解释人类演示视频并生成机器人任务规划。我们的方法将关键帧选择、视觉感知和 VLM 推理整合到一个管道中。我们将其命名为 SeeDo，因为它使 VLM 能够“看到”人类演示并向机器人解释相应的计划，以便它能够“做”。为了验证我们的方法，我们收集了一组长时程人类视频，展示了三个不同类别的取放任务，并设计了一组指标来全面评估 SeeDo 与几个基线方法的性能，包括最先进的视频输入 VLM。实验表明 SeeDo 的性能优于其他方法。我们进一步将生成的计划部署在模拟环境和真实机器人手臂上。

发布时间: 10/14/2024

查看原文

F2A：利用冒充安全检测代理的一种创新提示注入方法

作者: Yupeng Ren

arXiv:2410.08776v1 举报类型: 跨平台摘要：随着大型语言模型（LLMs）的快速发展，在内容安全性检测领域出现了大量成熟的LLM应用。然而，我们发现LLMs在安全检测代理方面表现出盲目的信任。一般而言，这些LLMs可以通过利用这一漏洞被黑客们所操控。因此，本文提出了一种名为Feign Agent Attack（F2A）的攻击方法。通过这种方式的恶意伪造方法，在提示中添加虚假的安全检测结果，可以绕过LLMs的防御机制，从而获取有害内容并劫持正常的对话。随后，进行了一系列实验。在这些实验中，分析并展示了F2A对LLMs的劫持能力，探究了LLMs为何会盲目信任安全检测结果的根本原因。实验涉及了各种场景，在这些场景中，虚假的安全检测结果被注入到提示中，并且通过密切关注响应来了解漏洞的严重程度。此外，本文还提供了一个合理的方法来应对这种攻击，强调LLMs对于增强代理的结果进行批判性评估的重要性，以防止生成有害内容。通过这种方式，可以显著提高可靠性和安全性，保护LLMs免受F2A的攻击。

发布时间: 10/14/2024

查看原文

基于重构的通道剪枝实现边缘设备上的高效多目标跟踪

作者: Jan M\"uller, Adrian Pigors

多目标跟踪 (MOT) 技术的进步带来了双重挑战：在保持高性能的同时解决关键的安全和隐私问题。在行人跟踪等涉及敏感个人数据的应用中，如果数据被传输到外部服务器，则存在隐私泄露和数据滥用的风险，这是一个重大问题。为了减轻这些风险，直接在边缘设备（例如智能摄像头）上处理数据已经成为一种可行的解决方案。边缘计算确保敏感信息保持本地，从而符合严格的隐私原则并显著减少网络延迟。然而，在边缘设备上实现 MOT 也并非没有挑战。边缘设备通常拥有有限的计算资源，因此需要开发能够在这些约束条件下提供实时性能的高度优化算法。最先进的 MOT 算法的计算需求与边缘设备的功能之间的差距突出了一个重大障碍。为了应对这些挑战，我们提出了一种专门针对压缩复杂网络（例如现代 MOT 系统中使用的网络）的神经网络剪枝方法。这种方法通过确保在有限的边缘设备（例如 NVIDIA 的 Jetson Orin Nano）的约束条件下实现高精度和效率来优化 MOT 性能。通过应用我们的剪枝方法，我们在保持高精度水平的同时实现了高达 70% 的模型大小缩减，并在 Jetson Orin Nano 上进一步提高了性能，证明了我们的方法在边缘计算应用中的有效性。

发布时间: 10/14/2024

查看原文