车辆轨迹预测对于推进自动驾驶和高级驾驶辅助系统 (ADAS) 至关重要。尽管基于深度学习的方法——特别是那些利用基于Transformer和生成模型的方法——通过捕捉车辆动力学和交通交互中复杂的非线性模式显著提高了预测精度,但它们常常忽略了详细的跟车行为以及对现实世界驾驶应用至关重要的车际交互,尤其是在全自动或混合交通场景中。为了解决这个问题,本研究提出了一种用于跟车轨迹预测的尺度噪声条件扩散模型,该模型将详细的车际交互和跟车动力学集成到一个生成框架中,从而提高了预测轨迹的准确性和合理性。该模型利用一种新颖的管道,通过在扩散过程中用编码的历史特征缩放噪声来捕捉车辆的历史动力学。特别是,它采用基于交叉注意力的Transformer架构来模拟复杂的车辆间依赖关系,有效地引导去噪过程并提高预测精度。在各种真实世界驾驶场景中的实验结果证明了该方法的先进性能和鲁棒性。
模型融合是一种新兴技术,它将针对不同任务微调的多个模型集成到一个多功能模型中,从而在多个领域表现出色。然而,这种方案也可能带来后门攻击的机会,其中单个恶意模型就可能危及融合模型的完整性。现有工作试图通过假设大量的计算资源来证明此类攻击的风险,重点关注攻击者可以完全微调预训练模型的情况。然而,考虑到机器学习模型规模的不断增大,这种假设可能并不现实。在资源有限且攻击者只能使用低秩自适应(LoRA)等技术来生成恶意模型的实际情况下,攻击是否仍然有效并构成威胁尚不清楚。在这项工作中,我们首先发现,当使用 LoRA 进行微调时,攻击效力会显著降低。然后,我们提出了 LoBAM,这是一种能够以最少的训练资源实现高攻击成功率的方法。LoBAM 的核心思想是以一种巧妙的方式放大恶意权重,从而有效地提高攻击效力。我们通过理论证明和广泛的经验实验,在各种模型融合场景中证明了我们的设计可以提高攻击成功率。此外,我们还表明,我们的方法具有很强的隐蔽性,难以检测。
随着大型语言模型(LLM)越来越多地用于将自然语言查询转换为商业数据库的SQL,校准至关重要。本研究调查了为生成的SQL查询分配置信度的校准技术。我们表明,一个简单的基线——从模型的全序列概率中推导出置信度——优于最近依赖于后续提示进行自我检查和置信度表达的方法。我们在两个广泛使用的文本到SQL基准测试和多个LLM架构上进行了全面的评估,为各种校准策略的有效性提供了宝贵的见解。
大型多模态模型 (LMM) 在视觉语言理解方面取得了令人瞩目的进展,但它们在需要对大量图像进行复杂推理的现实世界应用中面临局限性。现有的多图像问答基准测试范围有限,每个问题最多只与 30 张图像配对,这并没有完全捕捉到现实世界应用中遇到的海量检索任务的需求。为了缩小这些差距,我们引入了两个文档检索基准,称为 DocHaystack 和 InfoHaystack,旨在评估 LMM 在大规模视觉文档检索和理解方面的性能。此外,我们提出了一种新颖的、以视觉为中心的检索增强生成 (RAG) 框架 V-RAG,它利用了一套多模态视觉编码器(每个都针对特定优势进行了优化)和一个专用的问题-文档相关性模块。与之前的最佳基线模型相比,V-RAG 在具有挑战性的 DocHaystack-1000 和 InfoHaystack-1000 基准测试中,Recall@1 分别提高了 9% 和 11%,从而树立了新的标准。此外,将 V-RAG 与 LMM 集成,使它们能够高效地处理数千张图像,从而在我们的 DocHaystack 和 InfoHaystack 基准测试中取得显著改进。我们的代码和数据集可在 https://github.com/Vision-CAIR/dochaystacks 获取。
从图像中去除雨、雨滴和雪等恶劣天气条件对于自动驾驶、监控和遥感等各种实际应用至关重要。然而,现有的多任务方法通常依赖于为模型添加额外的参数来处理多种场景。虽然这使得模型能够处理不同的任务,但额外参数的引入极大地增加了其实际部署的复杂性。本文提出了一种用于恶劣天气下多场景图像恢复的新型梯度引导参数掩码,旨在无需额外参数即可有效处理不同天气条件下的图像退化。我们的方法通过评估每个特定天气条件下训练期间的梯度变化强度,将模型参数分割成公共和特定组件。这使得模型能够精确且自适应地学习每个天气场景的相关特征,从而在不影响性能的情况下提高效率和有效性。该方法根据梯度波动构建特定的掩码,以隔离受其他任务影响的参数,确保模型在所有场景中都能取得良好的性能,而无需添加额外参数。我们在多个基准数据集上进行了大量的实验,证明了我们框架的最新性能。具体来说,我们的方法在 Raindrop 数据集上取得了 29.22 的 PSNR 分数,在 Rain 数据集上取得了 30.76 的 PSNR 分数,在 Snow100K 数据集上取得了 29.56 的 PSNR 分数。代码可在以下地址获取:\href{https://github.com/AierLab/MultiTask}{https://github.com/AierLab/MultiTask}。
扩散模型容易精确复制训练数据中的图像。这种精确复制令人担忧,因为它可能导致版权侵犯和/或隐私敏感信息的泄露。本文提出了一种理解记忆现象的新方法,并提出了一种简单而有效的方法来减轻这种现象。我们认为,记忆的发生是因为去噪过程中存在一个吸引盆地,它将扩散轨迹引导到记忆图像。然而,这可以通过在理想的过渡点出现之前不应用无分类器引导来引导扩散轨迹远离吸引盆地来减轻。这使得能够生成高质量且与条件机制良好对齐的非记忆图像。为了进一步改进这一点,我们提出了一种新的引导技术,“反向引导”,它可以在去噪过程中更快地逃离吸引盆地。我们证明了在发生记忆的各种场景中存在吸引盆地,并且我们展示了我们提出的方法成功地减轻了记忆现象。
大型语言模型(LLM)的进步及其广泛应用令人瞩目,包括其在科学研究辅助中的应用。然而,这些模型常常生成科学上不准确或不安全的回应,在某些情况下,它们甚至可能诱导用户从事危险行为。为了解决化学领域中的这一问题,我们引入了ChemSafetyBench,这是一个旨在评估LLM回应的准确性和安全性的基准测试。ChemSafetyBench包含三个关键任务:查询化学性质、评估化学用途的合法性以及描述合成方法,每个任务都需要越来越深入的化学知识。我们的数据集包含超过3万个关于各种化学材料的样本。我们结合手工制作的模板和高级越狱场景来增强任务的多样性。我们的自动化评估框架彻底评估了LLM回应的安全、准确性和适当性。对最先进LLM的大量实验揭示了其显著的优势和严重的漏洞,强调了加强安全措施的必要性。ChemSafetyBench旨在成为开发更安全的化学人工智能技术的关键工具。我们的代码和数据集可在https://github.com/HaochenZhao/SafeAgent4Chem获取。警告:本文包含使用人工智能模型合成受控化学品的讨论。
随着大型语言模型在各个领域的应用不断扩展,识别有害内容生成和防护机制的有效性面临着更大的挑战。本研究旨在通过对看似合乎道德的提示模拟进行黑盒测试,评估防护机制在面对多步骤越狱提示生成的言语攻击时的有效性。实验对象选择了GPT-4o、Grok-2 Beta、Llama 3.1 (405B)、Gemini 1.5和Claude 3.5 Sonnet。研究人员使用相同的逐步提示,通过设计“企业中层管理人员竞争晋升”的场景来模拟道德攻击,并观察模型在每个步骤的响应。实验过程中,上述模型的防护机制均被绕过,并生成了言语攻击内容。数据结果表明,在识别越狱提示的倾向性方面,Claude 3.5 Sonnet的表现优于其他模型。研究人员希望以此提醒开发者和未来的研究人员,防护机制不应仅仅扮演内容过滤器的角色,还应该具有预防功能。为了确保实验的客观性和普适性,研究人员已将实验过程、黑盒测试代码和增强的防护机制代码上传至GitHub,以促进开发者社区的合作:https://github.com/brucewang123456789/GeniusTrail.git。
基于Transformer的生成模型驱动的语音手势生成技术是虚拟人创建领域一个快速发展的方向。然而,现有模型面临着二次时间和空间复杂度带来的巨大挑战,限制了其可扩展性和效率。为了解决这些限制,我们引入了DiM-Gestor,这是一个利用Mamba-2架构的创新端到端生成模型。DiM-Gestor具有双组件框架:(1)模糊特征提取器和(2)语音到手势映射模块,两者都基于Mamba-2构建。模糊特征提取器与中文预训练模型和Mamba-2集成,自主提取隐含的、连续的语音特征。这些特征被合成到一个统一的潜在表示中,然后由语音到手势映射模块处理。该模块采用增强型自适应层归一化(AdaLN)的Mamba-2机制,对所有序列标记统一应用变换。这使得能够精确地建模语音特征和手势动态之间的细微相互作用。我们利用扩散模型来训练和推断多样化的姿态输出。在最新发布的中文伴音手势数据集上进行的大量主观和客观评估证实了我们提出的模型的有效性。与基于Transformer的架构相比,评估结果表明,我们的方法获得了具有竞争力的结果,并显著降低了内存使用量(约2.4倍),并将推理速度提高了2到4倍。此外,我们还发布了CCG数据集,这是一个中文伴音手势数据集,包含15.97小时(五个场景下的六种风格)的由专业中国电视广播员表演的3D全身骨骼手势运动。
天气和气候预报对于农业和灾害管理等领域至关重要。尽管数值天气预报 (NWP) 系统已经取得了进步,但在亚季节到季节 (S2S) 尺度(跨度为 2 到 6 周)上的预报仍然具有挑战性,因为在此时间间隔内的混沌和稀疏的大气信号。即使是目前最先进的深度学习模型也难以在这个领域超越简单的气候模型。本文认为,优化而非网络结构可能是这种性能差距的根本原因,然后我们开发了一种新的多阶段优化策略来弥合这一差距。大量的实证研究表明,我们的多阶段优化方法在使用相同的骨干结构的同时,显著提高了关键技能指标 PCC 和 TCC,超过了最先进的 NWP 系统 (ECMWF-S2S) \textbf{19-91%} 以上。我们的研究反驳了最近的一项研究,该研究认为直接预报优于滚动预报的 S2S 任务。通过理论分析,我们提出滚动预报的性能不佳可能是由于训练过程中雅可比矩阵乘积的累积造成的。我们的多阶段框架可以看作是一种解决此问题的教师强制形式。代码可在 \url{https://anonymous.4open.science/r/Baguan-S2S-23E7/} 获取。