尽管多臂老虎机 (MAB) 和策略梯度方法是强化学习中最常用的框架之一,但用于 MAB 的策略梯度算法的理论性质尚未得到足够的关注。在这项工作中,我们研究了在存在 L2 正则化项和 'softmax' 参数化的前提下,此类过程的收敛性。我们在适当的技术假设下证明了收敛性,并在数值上测试了该过程,包括超出理论设置的情况。测试表明,特别是当初始猜测远离解时,时间相关的正则化过程可以改进规范方法。
在药物发现中,用于蛋白质-配体结合的分子动力学 (MD) 模拟为预测结合亲和力、估计传输特性和探索口袋位点提供了一种强大的工具。长期以来,人们一直致力于通过改进的数值方法以及最近利用机器学习 (ML) 方法来提高 MD 模拟的效率。然而,仍然存在一些挑战,例如对扩展时间尺度模拟的精确建模。为了解决这个问题,我们提出了 NeuralMD,这是第一个可以促进数值 MD 并提供蛋白质-配体结合动力学精确模拟的 ML 代理模型。我们提出了一种基于原理的方法,该方法结合了一种新颖的物理信息多粒度群对称框架。具体来说,我们提出了 (1) 使用向量框架满足群对称性并捕获多层次蛋白质-配体相互作用的 BindingNet 模型,以及 (2) 一个增强的神经微分方程求解器,该求解器学习牛顿力学下的轨迹。在实验中,我们设计了十个单轨迹和三个多轨迹结合模拟任务。我们证明了 NeuralMD 的效率和有效性,与标准数值 MD 模拟相比,其速度提高了 1000 倍以上。NeuralMD 还优于所有其他 ML 方法,重建误差降低了 15 倍,有效性提高了 70%。此外,我们定性地说明,预测轨迹中的振荡与其他机器学习方法相比,更接近于真实动力学。我们相信 NeuralMD 为模拟蛋白质-配体动力学的新研究范式奠定了基础。
大型语言模型 (LLM) 在许多自然语言理解和生成任务中展现出卓越的能力。然而,个性化问题仍然是一个非常令人向往的特性,尤其是在涉及对话系统中的多个来源时。为了更好地规划和整合使用多个来源生成个性化响应,我们首先将其分解为三个子任务:知识源选择、知识检索和响应生成。然后,我们提出了一种新颖的统一多源检索增强生成系统 (UniMS-RAG)。具体来说,我们在训练过程中将这三个具有不同表述的子任务统一到同一个序列到序列范式中,以自适应地检索证据并使用特殊的标记(称为动作标记和评估标记)按需评估相关性。使语言模型能够生成动作标记有助于与各种知识源交互,使其能够适应不同的任务需求。同时,评估标记衡量对话上下文和检索到的证据之间的相关性分数。此外,我们精心设计了一种自我完善机制,以迭代地完善生成的响应,考虑 1) 生成的响应和检索到的证据之间的一致性分数;以及 2) 相关性分数。在两个个性化数据集 (DuLeMon 和 KBP) 上的实验表明,UniMS-RAG 在知识源选择和响应生成任务上实现了最先进的性能,它本身以统一的方式充当检索器。我们提供了广泛的分析和讨论,为个性化对话系统提供了一些新的视角。
场景图生成 (SGG) 致力于预测给定图像中主体和客体之间的关系。然而,关系的长尾分布往往导致对粗粒度标签的预测偏差,这成为 SGG 中的一个重大障碍。为了解决这个问题,研究人员专注于无偏 SGG,并引入数据迁移方法将粗粒度谓词迁移到整个数据集中的细粒度谓词。然而,这些方法面临两个主要挑战:1) 它们忽略了主体-客体对所施加的固有上下文约束,导致关系迁移错误。2) 数据迁移后需要额外的再训练过程,这会产生巨大的计算成本。为了克服这些限制,我们介绍了 SGG 中第一个即插即用的单阶段数据迁移管道,称为自适应标签微调 (ALF),它无需额外的再训练环节,同时显著增强了各种 SGG 基准方法的模型关系识别能力。具体来说,ALF 包含两个组件:自适应标签构建 (ALC) 和自适应迭代学习 (AIL)。通过在关系空间内施加谓词-上下文约束,ALC 利用基于约束的判断技术,根据模型的预测 logits 自适应地重新排序和选择候选关系,实现稳健的关系迁移。在 ALC 迁移的标签的监督下,AIL 以自回归的方式迭代微调 SGG 模型,这减轻了再训练过程带来的巨大计算成本。大量的实验表明,与典型的 SGG 方法 Motif 相比,ALF 的 mR@100 提高了 16%,而与最先进的方法 IETrans 相比,计算成本仅增加了 6%。
开源代码无处不在。在这种环境下,嵌入式漏洞正以惊人的速度蔓延到下游软件中。虽然此类漏洞通常会被迅速识别和解决,但维护策略不一致可能会导致安全补丁被忽视。事实上,安全补丁可能是“静默的”,即它们并不总是附带全面的安全公告,例如 CVE。这种缺乏透明度使得用户无法察觉可用的安全更新,为攻击者利用未修补的漏洞提供了充足的机会。因此,在安全补丁发布时及时识别它们对于防止 N-day 攻击以及确保稳健和安全的维护实践至关重要。通过 LLMDA,我们提出:(1)利用大型语言模型 (LLM) 来增强补丁信息,并生成代码更改说明;(2)设计一种表示学习方法,探索用于特征组合的代码文本对齐方法;(3)实现基于标签的训练,并使用带标签的指令来指导基于安全相关性的嵌入;(4)依赖概率批量对比学习机制来构建高精度安全补丁识别器。我们在 PatchDB 和 SPI-DB 文献数据集上评估了 LLMDA,结果表明,我们的方法比现有技术有了显著的改进,在 SPI-DB 基准测试中,F 值比 GraphSPD 提高了 20%。
主动视觉探索 (AVE) 通过顺序选择信息量最大的观测结果来优化现实场景中机器人资源的利用。然而,现代方法由于需要通过自动编码器变换器多次处理相同的观测结果,因此需要较高的计算成本。为了解决这个问题,我们提出了一种名为令牌循环 (TORE) 的新型 AVE 方法。它将编码器分为提取器和聚合器组件。提取器单独处理每个观测结果,从而能够重用传递给聚合器的令牌。此外,为了进一步减少计算量,我们将解码器减少到只有一个块。通过大量的实验,我们证明了 TORE 的性能优于最先进的方法,同时将计算开销降低了高达 90%。
生物和人工信息处理系统形成对世界的表征,它们可以利用这些表征进行分类、推理、规划、导航和决策。我们如何衡量这些不同系统所形成的表征之间的相似性?表征的相似性是否会转化为相似的行为?如果是这样,那么如何修改一个系统的表征以更好地匹配另一个系统的表征?这些关于表征对齐研究的问题是当代认知科学、神经科学和机器学习一些最有前景的研究领域的核心。在本篇综述中,我们调查了认知科学、神经科学和机器学习领域表征对齐研究中令人兴奋的最新进展。尽管这些领域存在重叠的兴趣,但这些领域之间的知识转移有限,因此一个领域的工作最终会在另一个领域重复,而有用的创新并没有得到有效的共享。为了改进交流,我们提出了一个统一的框架,该框架可以作为表征对齐研究的通用语言,并在我们的框架内绘制跨领域的几条现有工作流。我们还阐述了表征对齐中的一些开放性问题,在这些问题上取得进展可以使这三个领域都受益。我们希望这篇论文能够催化跨学科合作,并加速所有研究和开发信息处理系统的社群的进步。
近年来,图像文本检索技术发展迅速。然而,由于视觉语义失衡导致非语义视觉特征和文本特征匹配错误,该技术在遥感领域仍然面临挑战。为了解决这个问题,我们提出了一种新颖的定向视觉语义嵌入模型(DOVE),用于挖掘视觉和语言之间的关系。我们的重点是在潜在空间中进行视觉和文本表示,并将它们尽可能地引导到无冗余的区域视觉表示。具体来说,区域定向注意力模块(ROAM)根据区域视觉特征自适应地调整潜在语义空间中最终视觉和文本嵌入之间的距离。同时,我们设计了一个轻量级的挖掘文本基因组助手(DTGA),以扩展易处理文本表示的范围,并使用更少的注意力操作来增强全局词级语义连接。最终,我们利用全局视觉语义约束来减少单一视觉依赖性,并作为最终视觉和文本表示的外部约束。我们在两个基准数据集RSICD和RSITMD上进行了大量的实验,包括参数评估、定量比较、消融研究和可视化分析,验证了我们方法的有效性和优越性。
近年来,以GPT-4V为代表的多模态大型语言模型(MLLM)成为一个新的研究热点,它利用强大的大型语言模型(LLM)作为“大脑”来执行多模态任务。MLLM令人惊讶的新兴能力,例如基于图像创作故事和无需光学字符识别(OCR)的数学推理,在传统的多模态方法中是罕见的,这暗示了通向人工通用智能的潜在路径。为此,学术界和工业界都努力开发能够与GPT-4V竞争甚至超越GPT-4V的MLLM,以惊人的速度推动着研究的极限。本文旨在追溯和总结MLLM的最新进展。首先,我们介绍了MLLM的基本构成,并阐述了其相关的概念,包括架构、训练策略和数据以及评估方法。然后,我们介绍了关于如何扩展MLLM以支持更细粒度、更多模态、更多语言和更多场景的研究课题。接下来,我们讨论多模态幻觉和扩展技术,包括多模态指令学习(M-ICL)、多模态思维链(M-CoT)和大型语言模型辅助视觉推理(LAVR)。最后,我们讨论了现有挑战并指出了有前景的研究方向。
我们研究了置信预测(一种强大的不确定性量化工具)对标签噪声的鲁棒性。我们的分析同时处理回归和分类问题,描述了何时以及如何构建能够正确覆盖未观察到的无噪声真实标签的不确定性集。我们进一步扩展了我们的理论,并制定了使用噪声标签正确控制一般损失函数(例如假阴性比例)的要求。我们的理论和实验表明,只要噪声是分散的并增加了可变性,具有噪声标签的置信预测和风险控制技术就能在干净的真实标签上获得保守的风险。在其他对抗性情况下,我们也可以校正置信预测算法中大小有限的噪声,以确保在没有分数或数据规律性的情况下实现真实标签的正确风险。