大型语言模型 (LLMs) 的全面评估是一个开放的研究问题。现有的评估依赖于通过贪婪解码生成的确定性点估计。然而,我们发现确定性评估未能捕捉模型的整个输出分布,从而导致对模型能力的估计不准确。这在诸如遗忘和对齐等关键环境中尤其成问题,因为在这些环境中,精确的模型评估至关重要。为了解决这个问题,我们引入了第一个正式的 LLM 概率评估框架。具体来说,我们推导出关于模型输出分布的新度量,并具有高概率保证。我们的度量与应用无关,允许从业人员在部署之前对模型能力做出更可靠的估计。通过一个专注于遗忘的案例研究,我们发现确定性评估错误地表明遗忘成功,而我们的概率评估表明,这些模型中大多数(如果不是全部)的所谓遗忘信息仍然可以访问。此外,我们提出了一种基于熵优化和自适应温度缩放的新遗忘损失,这在最近的基准测试中显着提高了概率设置下的遗忘。我们提出的从点估计到输出分布的概率评估的转变代表了朝着全面评估 LLM 的重要一步。
全球 COVID-19 大流行暴露了传统医疗体系的重大缺陷,加速了在线医疗服务的进步,尤其是在医疗分诊和咨询方面。然而,现有的研究面临着两大挑战。首先,由于隐私问题,大规模、公开可用的特定领域医疗数据集十分匮乏,现有数据集规模小,仅限于少数疾病,限制了基于预训练语言模型 (PLM) 的分诊方法的有效性。其次,现有方法缺乏医学知识,难以准确理解患者与医生咨询中的专业术语和表达。为了克服这些障碍,我们构建了大规模中文医学对话语料库 (LCMDC),包含 439,630 个样本的粗粒度分诊数据集、199,600 个样本的细粒度诊断数据集以及 472,418 个项目的医疗咨询数据集,从而解决该领域的数据短缺问题。此外,我们还提出了一种新颖的分诊系统,该系统将基于 BERT 的监督学习与提示学习相结合,以及一种使用强化学习的基于 GPT 的医疗咨询模型。为了增强领域知识获取,我们使用我们自建的背景语料库对 PLM 进行预训练。在 LCMDC 上的实验结果证明了我们提出的系统的有效性。
联邦学习 (FL) 通过允许分散的客户端进行协作的现场训练来促进数据隐私。尽管它具有内在优势,但 FL 在处理非独立同分布 (non-i.i.d.) 数据时面临着性能和收敛的重大挑战。虽然以前的研究主要解决了客户端之间标签分布倾斜的问题,但本研究重点关注了多域 FL 的一个鲜为人知的挑战,即客户端数据源自具有不同特征分布的不同领域。我们提出了一种旨在解决这些挑战的新方法 FedStein:通过 James-Stein 估计器增强多域联邦学习。FedStein 独特地仅在客户端之间共享批归一化 (BN) 统计数据的 James-Stein (JS) 估计值,同时保留本地 BN 参数。非 BN 层参数通过标准 FL 技术进行交换。在三个数据集和多个模型上进行的大量实验表明,FedStein 超越了 FedAvg 和 FedBN 等现有方法,在某些领域精度提高超过 14%,从而增强了域泛化能力。代码可在 https://github.com/sunnyinAI/FedStein 获取。
我们引入了 SynFormer,一个旨在高效探索和导航可合成化学空间的生成式建模框架。与传统的分子生成方法不同,我们为分子生成合成路径,以确保设计在合成上是可行的。通过整合可扩展的 Transformer 架构和用于构建块选择的扩散模块,SynFormer 在可合成分子设计方面超越了现有模型。我们在两个关键应用中展示了 SynFormer 的有效性:(1) 局部化学空间探索,模型生成参考分子的可合成类似物;(2) 全局化学空间探索,模型旨在根据黑盒性质预测预言来识别最佳分子。此外,我们通过在更多计算资源可用时性能的提高来证明我们方法的可扩展性。随着我们的代码和训练模型的公开可用,我们希望 SynFormer 将在药物发现和材料科学的应用中得到应用。
通过图像输入增强语言模型可能通过连续优化实现更有效的越狱攻击,而文本输入则需要离散优化。然而,新的多模态融合模型使用不可微分函数对所有输入模态进行标记,这阻碍了直接攻击。在这项工作中,我们引入了标记器捷径的概念,该捷径使用连续函数近似标记化,并允许连续优化。我们使用标记器捷径创建了针对多模态融合模型的首个端到端梯度图像攻击。我们在 Chameleon 模型上评估了我们的攻击,并获得了能为 72.5% 的提示诱发有害信息的越狱图像。越狱图像优于使用相同目标优化的文本越狱,并且需要低 3 倍的计算预算来优化 50 倍的输入标记。最后,我们发现,仅针对文本攻击训练的表示工程防御,如断路器,可以有效地转移到对抗性图像输入。
深度伪造技术的快速发展对数字媒体的完整性构成了重大威胁。深度伪造是指利用人工智能技术合成的媒体,可以令人信服地改变视频和音频以歪曲现实。这带来了虚假信息、欺诈的风险,并对个人隐私和安全造成严重影响。我们的研究通过一种创新的多模态方法来解决深度伪造的关键问题,该方法针对视觉和听觉元素。这种全面的策略认识到人类感知整合了多种感官输入,特别是视觉和听觉信息,以形成对媒体内容的完整理解。对于视觉分析,我们开发了一个采用先进特征提取技术的模型,提取了九种不同的面部特征,然后应用各种机器学习和深度学习模型。对于听觉分析,我们的模型利用梅尔谱图分析进行特征提取,然后应用各种机器学习和深度学习模型。为了实现组合分析,将原始数据集中的真实音频和深度伪造音频互换以进行测试,并确保样本平衡。使用我们提出的用于视频和音频分类的模型(即人工神经网络和 VGG19),如果任一组件被识别为深度伪造,则整个样本被分类为深度伪造。我们的多模态框架结合了视觉和听觉分析,获得了 94% 的准确率。
大型会议,如 NeurIPS 和 AAAI,是各个 AI 领域的交叉点,因为它们吸引了来自众多社区的投稿。然而,在某些情况下,这会导致某些社区的投稿被分配给其社区之外的资质较低的评审员,从而导致糟糕的评审体验。一个经常被提倡的解决方案是将这些大型会议拆分成更小的会议,但这会导致社区之间的隔离,并损害跨学科研究。我们通过引入一个称为“核心”的群体公平概念来解决这一挑战,该概念要求每个可能的社区(研究人员的子集)都得到公平对待,以防止他们通过退出大型会议来单方面获益。
我们研究了一个简单的同行评审模型,证明它总能找到一个“核心”范围内的评审分配,并设计了一种有效的算法来找到这种分配。我们使用来自 CVPR 和 ICLR 会议的真实数据,在多个指标上将我们的算法与现有的评审分配算法进行比较。
近年来,深度学习(DL)在漏洞检测领域取得了显著进展,其方法展现出极大的潜力,在有效性方面往往超越传统的静态代码分析工具。
本研究探索了一种利用 BERT 模型注意力矩阵上的拓扑数据分析(TDA)工具进行漏洞检测的新方法。我们的研究结果表明,当在从这些注意力矩阵中提取的拓扑特征上训练传统机器学习(ML)技术时,其性能可以与 CodeBERTa 等预训练语言模型(LLMs)相媲美。这表明 TDA 工具(包括持久同源性)能够有效地捕获识别漏洞的关键语义信息。
近年来,扩散模型在学习数据先验以解决逆问题方面取得了显著进展。它们利用扩散采样步骤来诱导数据先验,同时在每个步骤中使用测量引导梯度来强加数据一致性。对于一般的逆问题,当使用无条件训练的扩散模型时,由于测量似然性难以处理,需要进行近似,导致后验采样不准确。换句话说,由于这些方法的近似,它们无法在扩散先验定义的数据流形上保留生成过程,从而导致图像恢复等应用中的伪影。为了提高扩散模型在解决逆问题方面的性能和鲁棒性,我们提出了扩散状态引导投影梯度 (DiffStateGrad),它将测量梯度投影到一个子空间,该子空间是扩散过程中间状态的低秩近似。DiffStateGrad 作为一个模块,可以添加到各种基于扩散的逆解算器中,以改善扩散过程在先验流形上的保留,并滤除产生伪影的成分。我们强调,DiffStateGrad 提高了扩散模型在测量引导步长和噪声选择方面的鲁棒性,同时提高了最坏情况下的性能。最后,我们证明了 DiffStateGrad 在线性和非线性图像恢复逆问题上优于现有技术。
残疾人(PwD)经常在网上遭遇歧视性仇恨和微攻击。虽然在线平台使用机器学习模型来调节在线伤害,但关于这些模型如何与歧视残疾人现象相互作用的研究很少。本文收集了 100 条针对 PwD 的社交媒体评论数据集,并招募了 160 名参与者来评估这些评论的毒性和歧视性程度,并解释原因。然后,我们提示最先进的毒性分类器(TC)和大型语言模型(LLM)对这些评论进行评估并解释其危害性。我们的分析表明,TC 和 LLM 对毒性的评级明显低于 PwD,但 LLM 对歧视残疾人现象的评级总体上与 PwD 相当。然而,LLM 对歧视残疾人现象的解释忽略了情感上的伤害,缺乏针对性和对语境的认可,而这些是 PwD 解释的重要方面。展望未来,我们讨论了设计能够识别残疾人歧视的毒性分类器的挑战,并倡导从歧视残疾人现象检测转向歧视残疾人现象解释和说明。