嵌入模型在实现各种下游任务(如语义相似性、信息检索和聚类)方面至关重要。最近,人们对开发能够跨任务泛化的通用文本嵌入模型(例如 MTEB)产生了浓厚的兴趣。然而,尽管通用多模态嵌入模型的重要性,但其学习方面的进展却相对缓慢。在这项工作中,我们旨在探索构建能够处理各种下游任务的通用嵌入的潜力。我们的贡献有两方面:(1)MMEB(大规模多模态嵌入基准),涵盖 4 个元任务(即分类、视觉问答、多模态检索和视觉定位)和 36 个数据集,包括 20 个训练数据集和 16 个评估数据集;(2)VLM2Vec(视觉语言模型 -> 向量),一种对比训练框架,通过在 MMEB 上训练将任何最先进的视觉语言模型转换为嵌入模型。与 CLIP 和 BLIP 等先前模型不同,VLM2Vec 可以处理图像和文本的任何组合,以根据任务指令生成固定维度的向量。我们在 Phi-3.5-V 上构建了一系列 VLM2Vec 模型,并在 MMEB 的评估拆分上对其进行了评估。我们的结果表明,\model 在 MMEB 中的分布内和分布外数据集上,与现有的多模态嵌入模型相比,平均绝对改进率为 10% 到 20%。
流式语音翻译 (ST) 模型如果使用大量源语言音频和目标语言书面文本对进行训练,可以实现高精度和低延迟。然而,由于人工 ST 数据标注成本过高,目标语言的文本标签通常是伪标签。本文提出了一种名为连接主义时间分类引导模态匹配 (CTC-GMM) 的方法,通过利用大量的机器翻译 (MT) 文本数据来增强流式 ST 模型。该技术利用 CTC 将语音序列压缩成一个紧凑的嵌入序列,该序列与相应的文本序列匹配,使我们能够利用 MT 语料库中匹配的 {源-目标} 语言文本对来进一步细化流式 ST 模型。我们使用 FLEURS 和 CoVoST2 进行的评估表明,CTC-GMM 方法可以分别将翻译精度提高 13.9% 和 6.4%,同时将 GPU 上的解码速度提高 59.7%。
平均场博弈(MFG)是一个用于建模和逼近大量主体行为的框架,而 MFG 中均衡的计算一直是研究的热点。尽管已经提出了逼近均衡的方法,但算法序列更新的策略收敛到均衡,特别是那些表现出最后迭代收敛的算法,一直很有限。我们提出使用一种简单的近端点型算法来计算 MFG 的均衡。随后,我们首次在 Lasry-Lions 型单调性条件下提供了最后迭代收敛保证。我们进一步采用镜像下降算法来对正则化的 MFG 进行高效逼近,以有效地逼近 MFG 的近端点方法的更新规则。我们证明了该算法可以在 $\mathcal{O}({\log(1/\varepsilon)})$ 次迭代后以 $\varepsilon$ 的精度进行逼近。这项研究为大规模和大量人口博弈提供了一种易于处理的方法。
通过稳定扩散 (SD) 微调实现可控生成旨在提高保真度、安全性以及与人类引导的一致性。现有的从人类反馈中进行强化学习的方法通常依赖于预定义的启发式奖励函数或建立在大型数据集上的预训练奖励模型,这限制了它们在收集此类数据成本高昂或困难的情况下的适用性。为了有效且高效地利用人类反馈,我们开发了一个名为 HERO 的框架,它利用在模型学习过程中即时收集的在线人类反馈。具体来说,HERO 具有两个关键机制:(1) 反馈对齐表示学习,这是一种在线训练方法,它捕获人类反馈并为微调提供信息丰富的学习信号;(2) 反馈引导图像生成,它涉及从 SD 的细化初始化样本中生成图像,从而能够更快地收敛到评估者的意图。我们证明,与现有的最佳方法相比,HERO 在在线反馈方面对于身体部位异常校正的效率提高了 4 倍。此外,实验表明,HERO 可以有效地处理推理、计数、个性化以及减少 NSFW 内容等任务,而只需 0.5K 在线反馈。
量子计算机有潜力在优化和数字分解等重要任务中超越经典计算机。它们的特点是连接性有限,这使得在程序执行过程中需要将它们被称为量子比特的计算位路由到特定位置以执行量子运算。传统上,最小化路由开销的 NP-hard 优化问题一直通过次优的基于规则的路由技术来解决,这些技术在成本函数设计中嵌入着固有的主观偏见。本文介绍了一种将蒙特卡罗树搜索 (MCTS) 与强化学习 (RL) 相结合的解决方案。我们基于 RL 的路由器,称为 AlphaRouter,优于当前最先进的路由方法,并生成路由开销降低高达 20% 的量子程序,从而显着提高量子计算的整体效率和可行性。
在皮肤病诊断领域,对皮肤镜和显微镜下皮肤病变图像的分析对于准确、早期发现各种疾病至关重要。然而,创建多样化、高质量的带标签数据集的成本高昂,阻碍了机器学习模型的准确性和泛化能力。我们提出了一种创新的无监督数据增强解决方案,利用基于生成对抗网络(GAN)的模型及其潜在空间中的相关技术,在皮肤镜图像中生成受控的半自动发现的语义变化。我们创建了合成图像来整合语义变化,并使用这些图像扩充训练数据。通过这种方法,我们能够提高机器学习模型的性能,并在 HAM10000 数据集上的皮肤病变分类中为非集成模型设定新的基准。我们还利用观察到的分析和生成的模型对模型的可解释性进行了详细研究,证实了我们解决方案的有效性。
本技术报告通过一项全面的实验研究和概念分析,探讨了生成式人工智能(GenAI),特别是 ChatGPT,在道德黑客实践中的整合。该研究在受控的虚拟环境中进行,评估了 GenAI 在渗透测试的各个关键阶段(包括侦察、扫描和枚举、获取访问权限、维护访问权限和掩盖踪迹)对基于 Linux 的目标机器(在虚拟局域网 (LAN) 中运行)的有效性。研究结果证实,GenAI 可以显著增强和简化道德黑客流程,同时强调了平衡的人机协作的重要性,而不是完全取代人工输入。该报告还批判性地考察了潜在的风险,例如滥用、数据偏差、幻觉和过度依赖 AI。这项研究为关于 AI 在网络安全中的道德使用的持续讨论做出贡献,并强调了加强安全防御的持续创新的必要性。
偏好优化(PO)已被证明是将语言模型与人类期望行为对齐的有效步骤。目前遵循离线直接偏好优化目标的变体,专注于一个严格的设置,其中所有标记都为 KL 散度和奖励损失函数贡献信号。然而,人类偏好并非受序列中的每个词语同等影响,而是经常依赖于特定词语或短语,例如,有毒词语的存在会导致非偏好响应。基于此观察,我们认为在 PO 期间不应平等地加权所有标记,并提出了一种名为 SparsePO 的灵活目标,旨在自动学习在 PO 训练期间加权每个标记对应的 KL 散度和奖励。我们提出了两种不同的权重掩码变体,它们可以从参考模型本身导出,也可以动态学习。值得注意的是,我们的方法在学习的掩码中引入了稀疏性,允许模型学习如何最好地加权标记级别的奖励和 KL 散度贡献,从而学习最佳的掩码稀疏性水平。在多个领域(包括情感控制、对话、文本摘要和文本到代码生成)进行的大量实验表明,我们的方法根据目标任务为标记分配有意义的权重,生成更多具有所需偏好的响应,并且在推理任务方面比其他标记级和响应级 PO 方法最多提高了 2 个百分点。
大型语言模型 (LLM) 的进步激发了人们对开发基于 LLM 的语言代理以端到端地自动化科学发现的兴趣,这引发了人们对这类代理的真实能力的兴奋和怀疑。在这项工作中,我们认为,为了让代理完全自动化科学发现,它必须能够完成工作流程中的所有必要任务。因此,我们呼吁在对代理进行大胆的端到端自动化声明之前,对代理在科学工作流程中的各个任务上进行严格的评估。为此,我们提出了 ScienceAgentBench,一个用于评估用于数据驱动科学发现的语言代理的新基准。为了确保我们基准的科学真实性和现实世界相关性,我们从四个学科的 44 篇同行评审出版物中提取了 102 个任务,并聘请了九位学科专家对其进行验证。我们将每个任务的目标输出统一为一个自包含的 Python 程序文件,并采用一系列评估指标来检查生成的程序、执行结果和成本。每个任务都经过了注释者和学科专家多轮手动验证,以确保其注释质量和科学合理性。我们还提出了两种有效的策略来减轻数据污染问题。使用我们的基准,我们评估了五个开放权重和专有 LLM,每个 LLM 都有三种框架:直接提示、OpenHands 和自我调试。在每个任务尝试三次的情况下,表现最好的代理只能独立解决 32.4% 的任务,在专家提供的知识帮助下解决 34.3% 的任务。这些结果强调了当前语言代理在生成用于数据驱动发现的代码方面的能力有限,更不用说科学研究的端到端自动化了。
近年来,基础模型已被证明是强大的数据压缩器。然而,考虑到其过多的参数数量,其压缩率实际上不如标准压缩算法。此外,简单地减少参数数量并不一定会有帮助,因为它会导致更糟糕的预测,从而导致更弱的压缩。在本文中,我们进行了一项大规模的实证研究,以调查是否存在一个最佳点,在该点上,预训练的普通转换器可以实现有竞争力的压缩率。为此,我们在 165GB 的原始字节序列(文本、图像或音频数据,以及三者的所有可能组合)上训练模型族,然后压缩来自每种模态的 1GB 的非分布 (OOD) 数据。我们发现,相对较小的模型(即数百万个参数)可以优于标准的通用压缩算法(gzip、LZMA2),甚至优于特定领域的压缩器(PNG、JPEG 2000、FLAC)——即使在考虑参数数量的情况下也是如此。例如,我们在 OOD 音频数据上实现了 0.49 的最低压缩率(而 FLAC 的压缩率为 0.54)。为了研究模型和数据集规模的影响,我们进行了广泛的消融和超参数扫描,并研究了单模态与多模态训练的效果。我们发现,即使是小型模型也可以被训练成在多个模态上表现良好,但与之前关于大规模基础模型的报道结果相反,迁移到看不见的模态通常很弱。