arXiv 论文列表

作者: Xueluan Gong, Mingzhe Li, Yilin Zhang, Fengyuan Ran, Chen Chen, Yanjiao Chen, Qian Wang, Kwok-Yan Lam

大型语言模型 (LLM) 在各种任务中表现出色，但仍然容易受到越狱攻击，攻击者会创建越狱提示来误导模型生成有害或冒犯性内容。目前的越狱方法要么严重依赖手动制作的模板，这在可扩展性和适应性方面存在挑战，要么难以生成语义连贯的提示，从而易于检测。此外，大多数现有方法都涉及冗长的提示，导致查询成本更高。本文为了解决这些挑战，我们引入了一种新颖的越狱攻击框架，这是一个自动化的、黑盒越狱攻击框架，它采用了一系列定制设计的黑盒模糊测试方法。我们的方法不像依赖手动制作的模板，而是从空的种子池开始，无需搜索任何相关的越狱模板。我们还开发了三种新颖的依赖于问题的变异策略，使用 LLM 助手生成在保持语义连贯性的同时显著缩短其长度的提示。此外，我们实现了一个两级判断模块来准确检测真正的成功越狱。我们对 7 个具有代表性的 LLM 进行了评估，并将其与 5 种最先进的越狱攻击策略进行了比较。对于专有的 LLM API，例如 GPT-3.5 turbo、GPT-4 和 Gemini-Pro，我们的方法的攻击成功率分别超过 90%、80% 和 74%，超过现有基线 60% 以上。此外，我们的方法可以在显著减少越狱提示长度的同时保持较高的语义连贯性。当针对 GPT-4 时，即使只有 100 个 token，我们的方法也能达到超过 78% 的攻击成功率。此外，我们的方法展示了可迁移性，并且对最先进的防御措施具有鲁棒性。我们将公开发布我们的代码。

发布时间: 10/10/2024

查看原文

将多维时间序列转换为可解释的事件序列以进行高级数据挖掘

作者: Xu Yan, Yaoting Jiang, Wenyi Liu, Didi Yi, Jianjun Wei

本文提出了一种新颖的时空特征表示模型，旨在解决传统方法在多维时间序列 (MTS) 分析中的局限性。该方法将MTS转换为空间演化事件的一维序列，保留了维度之间复杂的耦合关系。通过采用变长元组挖掘方法，提取关键的时空特征，提高了时间序列分析的可解释性和准确性。与传统模型不同，这种无监督方法不依赖于大型训练数据集，使其能够适应不同的领域。运动序列分类的实验结果验证了该模型在捕捉数据中复杂模式方面的优越性能。该框架在各个领域具有巨大的应用潜力，包括用于监控和优化IT基础设施的后端服务、通过持续患者监测和健康趋势分析进行医疗诊断，以及用于追踪用户行为和预测销售额的互联网业务。这项工作为推进时间序列数据挖掘及其在人类行为识别等领域的实际应用提供了新的理论基础和技术支持。

发布时间: 10/10/2024

查看原文

FIX基准：提取可解释于专家的特征

作者: Helen Jin, Shreya Havaldar, Chaehyeon Kim, Anton Xue, Weiqiu You, Helen Qu, Marco Gatti, Daniel A Hashimoto, Bhuvnesh Jain, Amin Madani, Masao Sako, Lyle Ungar, Eric Wong

基于特征的方法常用于解释模型预测，但这些方法往往隐含地假设可解释特征易于获得。然而，对于高维数据，情况往往并非如此，即使对于领域专家来说，也很难从数学上确定哪些特征很重要。我们能否自动提取与专家知识一致的特征集合或组？为了解决这一差距，我们提出了FIX（面向专家的可解释特征）基准，用于衡量特征集合与专家知识的一致程度。我们与领域专家合作，提出了FIXScore，这是一种统一的专家对齐度量，适用于宇宙学、心理学和医学等不同现实世界场景中的视觉、语言和时间序列数据模式。利用FIXScore，我们发现流行的基于特征的解释方法与专家指定的知识一致性较差，这突出了需要开发能够更好地识别对专家具有可解释性的特征的新方法。

发布时间: 10/10/2024

查看原文

FreeAvatar：基于表情基础模型的鲁棒三维面部动画迁移

作者: Feng Qiu, Wei Zhang, Chen Liu, Rudong An, Lincheng Li, Yu Ding, Changjie Fan, Zhipeng Hu, Xin Yu

视频驱动的三维面部动画迁移旨在驱动虚拟化身复制演员的表情。现有方法通过约束几何和感知一致性取得了显著成果。然而，几何约束（例如对面部标志点设计的约束）不足以捕捉细微的情绪，而基于分类任务训练的表情特征缺乏对复杂情绪的细粒度表达。为了解决这个问题，我们提出了**FreeAvatar**，这是一种仅依赖我们学习到的表情表示的鲁棒性面部动画迁移方法。具体来说，FreeAvatar 包含两个主要组件：表情基础模型和面部动画迁移模型。在第一个组件中，我们首先通过面部重建任务构建面部特征空间，然后通过探索不同表情之间的相似性来优化表情特征空间。得益于在大量未标记的面部图像和重新收集的表情比较数据集上进行训练，我们的模型能够自由有效地适应任何野外输入的面部图像。在面部动画迁移组件中，我们提出了一种新颖的表达驱动多化身动画器，它首先将表达语义映射到三维化身的的面部控制参数，然后在输入和输出图像之间施加感知约束以保持表情一致性。为了使整个过程可微，我们采用经过训练的神经渲染器将装备参数转换为相应的图像。此外，与之前需要为每个化身单独解码器的的方法不同，我们提出了一种动态身份注入模块，允许在单个网络中联合训练多个化身。

发布时间: 10/10/2024

查看原文

Hi-SLAM：基于分层类别高斯 splatting 的语义SLAM 扩展

作者: Boying Li, Zhixi Cai, Yuan-Fang Li, Ian Reid, Hamid Rezatofighi

我们提出了一种名为Hi-SLAM的语义三维高斯 splatting SLAM 方法，该方法采用一种新颖的分层类别表示，能够实现精确的全局三维语义建图、扩展能力以及三维世界中的显式语义标签预测。语义SLAM系统中的参数使用量随着环境复杂性的增加而显著增加，这使得场景理解变得尤为困难和代价高昂。为了解决这个问题，我们引入了一种新颖的分层表示方法，将语义信息以紧凑的形式编码到三维高斯 splatting 中，并利用大型语言模型 (LLM) 的能力。我们进一步引入了一种新颖的语义损失函数，旨在通过层内和层间优化来优化分层语义信息。此外，我们还增强了整个SLAM系统，从而提高了跟踪和建图性能。我们的Hi-SLAM在建图和跟踪精度方面均优于现有的稠密SLAM方法，同时实现了2倍的运行速度提升。此外，它在小型合成场景中渲染语义分割方面也表现出具有竞争力的性能，并且显著减少了存储和训练时间需求。渲染帧率令人印象深刻地达到了带语义信息的2000帧/秒和不带语义信息的3000帧/秒。最值得注意的是，它展示了处理包含500多个语义类别复杂真实场景的能力，突出了其宝贵的扩展能力。

发布时间: 10/10/2024

查看原文

斯皮尔斯纪念讲座：如何在化学和材料科学领域开展具有影响力的 AI 研究

作者: Austin Cheng, Cher Tian Ser, Marta Skreta, Andr\'es Guzm\'an-Cordero, Luca Thiede, Andreas Burger, Abdulrahman Aldossary, Shi Xuan Leong, Sergio Pablo-Garc\'ia, Felix Strieth-Kalthoff, Al\'an Aspuru-Guzik

机器学习已广泛应用于许多科学领域，化学和材料科学也不例外。尽管机器学习已产生巨大影响，但它尚未发挥其全部潜力或达到成熟阶段。本文首先概述了机器学习在化学领域各种问题的当前应用，然后讨论了机器学习研究人员如何看待和处理该领域的难题，最后，我们提出了在进行化学机器学习研究时最大化其影响的考虑因素。

发布时间: 10/10/2024

查看原文

LACOSTE：利用立体和时间上下文信息进行手术器械分割

作者: Qiyuan Wang, Shang Zhao, Zikang Xu, S Kevin Zhou

手术器械分割对于微创手术及相关应用至关重要。大多数先前的方法将此任务制定为基于单帧的实例分割，而忽略了手术视频的自然时间和立体属性。因此，这些方法对时间运动和视角变化引起的表观变化的鲁棒性较差。在这项工作中，我们提出了一种新颖的 LACOSTE 模型，该模型利用立体图像和时间图像中的位置无关上下文来改进手术器械分割。以基于查询的分割模型为核心，我们设计了三个性能增强模块。首先，我们设计了一个视差引导特征传播模块来显式增强深度感知特征。为了即使只有单目视频也能很好地泛化，我们应用了一种伪立体方案来生成互补的右图像。其次，我们提出了一种立体时间集合分类器，它以通用的方式聚合立体时间上下文以进行整合预测并减轻瞬态故障。最后，我们提出了一种位置无关分类器，以将位置偏差与掩码预测解耦，并增强特征语义。我们在三个公开的手术视频数据集上广泛验证了我们的方法，包括来自 EndoVis 挑战赛的两个基准数据集和一个真实的根治性前列腺切除术数据集 GraSP。实验结果证明了我们方法的良好性能，其始终与以前的最新方法取得相当或更好的结果。

发布时间: 10/10/2024

查看原文

Farmer.Chat：面向小农户的可扩展AI赋能农业服务

作者: Namita Singh, Jacqueline Wang'ombe, Nereah Okanga, Tetyana Zelenska, Jona Repishti, Jayasankar G K, Sanjeev Mishra, Rajsekar Manokaran, Vineet Singh, Mohammed Irfan Rafiq, Rikin Gandhi, Akshay Nambi

小型和中型农业经营者面临着获取本地化、及时信息有限的挑战，这影响着生产力和可持续性。传统的推广服务依赖于面对面的工作人员，在可扩展性和及时性方面，尤其是在偏远地区，面临着困境。我们推出了 FarmerChat，这是一个由生成式人工智能驱动的聊天机器人，旨在解决这些问题。利用生成式人工智能，FarmerChat 提供个性化、可靠且与上下文相关的建议，克服了以往聊天机器人确定性对话流程、语言支持和非结构化数据处理方面的局限性。FarmerChat 已在四个国家部署，吸引了超过 15,000 名农民参与，并回答了超过 300,000 个问题。本文重点介绍了 FarmerChat 如何创新地利用生成式人工智能来提高农业服务的可扩展性和有效性。我们的评估结合了定量分析和定性见解，突出了 FarmerChat 在改进农业实践、增强信任度、响应质量和用户参与度方面的有效性。

发布时间: 10/10/2024

查看原文

联邦印象：基于分布式异构数据的学习

作者: Atrin Arya, Sana Ayromlou, Armin Saadat, Purang Abolmaesumi, Xiaoxiao Li

标准的基于深度学习的分类方法在实际临床应用中并不总是切实可行的，因为它们需要集中收集所有样本。联邦学习 (FL) 提供了一种范式，可以在不要求客户端共享数据的情况下从分布式数据集学习，这有助于缓解隐私和数据所有权问题。在联邦学习中，由于不同医疗中心的数据收集协议和患者人口统计数据的差异，由数据异质性引起的次优收敛在不同医疗中心的数据中很常见。本研究通过实验表明，数据异质性会导致局部训练过程中出现灾难性遗忘现象。我们提出了 FedImpres，它通过恢复代表全局信息的合成数据作为联邦印象来缓解灾难性遗忘。为此，我们提取了每次通信轮次产生的全局模型。随后，我们将合成数据与局部数据一起使用，以增强局部训练的泛化能力。大量的实验表明，该方法在包含标签不平衡和域偏移的 BloodMNIST 和 Retina 数据集上取得了最先进的性能，分类准确率提高了高达 20%。

发布时间: 10/10/2024

查看原文

潜扩散桥接技术用于非监督式音乐音频音色迁移

作者: Michele Mancusi, Yurii Halychanskyi, Kin Wai Cheuk, Chieh-Hsin Lai, Stefan Uhlich, Junghyun Koo, Marco A. Mart\'inez-Ram\'irez, Wei-Hsiang Liao, Giorgio Fabbro, Yuki Mitsufuji

音乐音色迁移是一项极具挑战性的任务，它需要在保留音频信号旋律结构的同时修改其音色特征。本文提出一种基于双扩散桥的新方法，该方法使用由非配对单音单乐器音频数据组成的CocoChorales数据集进行训练。每个扩散模型都使用高斯先验在特定乐器上进行训练。在推理过程中，一个模型被指定为源模型，用于将输入音频映射到其对应的高斯先验，另一个模型被指定为目标模型，用于从此高斯先验重建目标音频，从而实现音色迁移。我们将我们的方法与现有的无监督音色迁移模型（如VAEGAN和高斯流桥（GFB））进行了比较。实验结果表明，与VAEGAN和GFB相比，我们的方法在Fréchet音频距离（FAD）和旋律保持方面均取得了更好的效果，这体现在较低的音高距离（DPD）上。此外，我们发现高斯先验中的噪声水平σ可以调节以控制旋律保持的程度和音色迁移的量。

发布时间: 10/10/2024

查看原文