强化学习(RL)在顺序决策问题中取得了巨大成功,但往往以大量的智能体-环境交互为代价。为了提高样本效率,像从专家演示中学习强化学习(RLED)这样的方法引入了外部专家演示,以促进智能体在学习过程中的探索。在实践中,这些演示通常来自人类用户,成本很高,因此通常限制在有限的数量。因此,如何选择最有利于学习的最佳人类演示集成为一个主要问题。本文提出了一种名为 EARLY(基于演示查询的逐集主动学习)的算法,该算法使学习智能体能够在基于轨迹的特征空间中生成优化的专家演示查询。基于对智能体当前策略中不确定性的轨迹级估计,EARLY 确定了基于特征的查询的优化时机和内容。通过查询逐集演示而不是孤立的状态-动作对,EARLY 改善了人类教学体验并取得了更好的学习性能。我们在三个难度不断增加的模拟导航任务中验证了我们方法的有效性。结果表明,我们的方法能够在所有三个任务中实现专家级性能,当演示由模拟预言机策略生成时,收敛速度比其他基线方法快 30% 以上。后续试点用户研究 (N=18) 的结果进一步验证了,在人类专家演示的情况下,我们的方法仍然可以保持显著更好的收敛性,同时在感知任务负载方面实现更好的用户体验,并显著减少人类时间。
神经符号计算 (NeSy) 旨在整合认知的符号和统计范式,多年来一直是人工智能 (AI) 的一个活跃研究领域。由于 NeSy 有望调和符号表示的推理和可解释性以及神经网络的鲁棒学习的优势,它可能成为下一代人工智能的催化剂。本文对 NeSy 研究的最新进展和重要贡献进行了系统的概述。首先,我们介绍了该领域的学习历史,涵盖早期工作和基础。我们进一步讨论了背景概念,并确定了 NeSy 发展背后的关键驱动因素。之后,我们根据几种主要特征对最近的里程碑方法进行分类,这些特征突出了这种研究范式,包括神经符号集成、知识表示、知识嵌入和功能。接下来,我们简要讨论了现代 NeSy 方法在几个领域的成功应用。然后,我们在三个代表性的应用任务上对几种 NeSy 方法进行了基准测试。最后,我们确定了开放性问题以及未来的潜在研究方向。预计本综述将帮助新研究人员进入这个快速发展的领域,并加速数据和知识驱动的人工智能的进展。
近年来,人们普遍认为现代大型多模态模型(LMM)已经解决了与短视频理解相关的多数关键挑战。因此,学术界和工业界正在逐渐将注意力转向理解长视频所带来的更复杂挑战。然而,情况真的是这样吗?我们的研究表明,即使处理短视频,LMM仍然缺乏许多基本的推理能力。我们引入了 Vinoground,这是一个包含 1000 个自然短视频-字幕对的时间反事实 LMM 评估基准。我们证明了现有的 LMM 在区分不同动作和物体转换之间的时间差异方面存在严重困难。例如,最好的模型 GPT-4o 在我们的文本和视频得分上仅获得了约 50%,与人类基准的约 90% 相比,存在很大差距。所有开源多模态模型和基于 CLIP 的模型的表现都要差得多,产生的结果几乎是随机的。通过这项工作,我们揭示了短视频中的时间推理是一个尚未完全解决的问题。数据集和评估代码可在 https://vinoground.github.io 获得。
生成式人工智能的快速发展是一把双刃剑,它不仅促进了内容创作,也使图像操纵变得更容易,更难以检测。虽然现有的图像伪造检测和定位 (IFDL) 方法通常有效,但它们往往面临着两个挑战:**1)** 检测原理未知的黑盒性质,**2)** 跨不同篡改方法(例如,Photoshop、DeepFake、AIGC-编辑)的泛化能力有限。为了解决这些问题,我们提出了可解释的 IFDL 任务,并设计了 FakeShield,一个能够评估图像真实性、生成篡改区域掩码,并根据像素级和图像级篡改线索提供判断依据的多模态框架。此外,我们利用 GPT-4o 增强现有的 IFDL 数据集,创建了用于训练 FakeShield 篡改分析能力的多模态篡改描述数据集 (MMTD-Set)。同时,我们整合了领域标签引导的可解释伪造检测模块 (DTE-FDM) 和多模态伪造定位模块 (MFLM),以解决各种类型的篡改检测解释,并实现由详细文本描述引导的伪造定位。大量的实验表明,FakeShield 有效地检测和定位了各种篡改技术,与之前的 IFDL 方法相比,它提供了一种可解释且更优的解决方案。
大型语言模型 (LLM) 可以使用提示技术跨领域生成流畅的摘要,减少了为摘要应用训练模型的需求。然而,设计能够引导 LLM 生成具有适当细节级别和写作风格的摘要的有效提示仍然是一个挑战。在本文中,我们探索了使用从源文档中提取的显着信息来增强摘要提示。我们表明,在提示中添加关键词可以提高 ROUGE F1 和召回率,使生成的摘要更接近参考摘要,并且更完整。关键词的数量可以控制精确度和召回率之间的权衡。此外,我们的分析表明,结合短语级别的显着信息优于词语级别或句子级别。然而,对幻觉的影响并非在所有 LLM 中都是积极的。为了进行这项分析,我们引入了关键词信号提取器 (CriSPO),这是一个轻量级模型,可以微调以提取显着的关键词。通过使用 CriSPO,我们在数据集以及开放权重和专有 LLM 上实现了持续的 ROUGE 提升,而无需任何 LLM 定制。我们的发现为利用显着信息构建基于提示的摘要系统提供了见解。
近年来,在处理高分辨率图像时,主流的大型语言模型(LLM)通常将图像分割成多个局部图像和一个全局图像,这会导致大量的视觉标记。在本研究中,我们提出了一种名为 AVG-LLaVA 的 LLM,它可以根据输入图像和指令自适应地选择合适的视觉粒度。这种方法不仅减少了视觉标记的数量,加快了推理速度,而且提高了模型的整体性能。具体来说,我们基于 LLaVA-NeXT 引入了以下模块:(a) 一个视觉粒度缩放器,它包含多个池化层,用于获取不同粒度的视觉标记;(b) 一个视觉粒度路由器,它包含一个 Transformer 层、一个 MLP 层和一个投票层,用于根据图像和指令选择合适的视觉粒度。此外,我们提出了一种名为 RGLF 的新型训练范式,旨在将路由器预测的粒度与 LLM 的偏好对齐,而无需额外的标注数据。大量的实验和分析表明,AVG-LLaVA 在 11 个基准测试中取得了优异的性能,同时显著减少了视觉标记的数量,并加快了推理速度(例如,在 AI2D 基准测试中,视觉标记数量减少了 85.3%,推理速度提高了 2.53 倍)。
我们研究了将预训练的大语言模型扩展到训练时未见过的全新领域的问题,例如添加一种原始模型没有或很少训练数据的语言。微调或低秩自适应等流行解决方案在领域自适应方面取得了成功,但从形式上讲,它们没有增加任何额外的容量,并且会降低原始领域的性能。
本文从数据、架构和训练过程三个角度分析了这种扩展问题,这三个角度有利于联合考虑。特别是,我们改进了适配器,并使学习全新的语言成为可能,同时确保神经网络在原始领域的输出几乎保持不变。为此,我们以一种方式修改了新的残差块,使得每个新的残差块在原始领域输出接近零。
这种中性残差的解决方案借鉴了专家混合的架构组件,非常有效:与仅用英语训练的原始模型相比,我们只增加了 20% 的可学习权重,就获得了比现有方法(微调、低秩或普通适配器)在学习新语言和不遗忘英语之间的权衡方面明显更好的结果。
大型语言模型(LLMs)可以通过提示技术跨领域生成流畅的摘要,从而减少了为摘要应用训练模型的必要性。然而,设计有效的提示来引导LLMs生成具有适当细节水平和写作风格的摘要仍然是一个挑战。在本文中,我们探讨了使用从源文档中提取的显著信息来增强摘要提示。我们表明,在提示中添加关键词可以提高ROUGE F1和召回率,使生成的摘要更类似于参考摘要,并且更完整。关键词的数量可以控制精度-召回权衡。此外,我们的分析表明,合并短语级别的显著信息优于词级别或句子级别。然而,对幻觉的影响并非在所有LLMs中都是积极的。为了进行此分析,我们引入了关键词信号提取器(SigExt),这是一个轻量级模型,可以微调以提取显著关键词。通过使用SigExt,我们在没有任何LLM定制的情况下,在数据集和开放权重和专有LLMs上实现了稳定的ROUGE改进。我们的发现为利用显著信息构建基于提示的摘要系统提供了见解。
近年来,多模态模型的进展突显了重写标题在提升性能方面的价值,但仍存在关键挑战。例如,虽然合成标题通常提供更高质量和图像文本对齐,但尚不清楚它们是否能完全取代替代文本:合成标题的作用及其与原始网络爬取替代文本在预训练中的交互作用尚不清楚。此外,不同的多模态基础模型可能对特定标题格式有独特的偏好,但识别每个模型的最佳标题的工作仍然有限。在这项工作中,我们提出了一种新颖、可控且可扩展的标题生成管道,旨在生成针对各种多模态模型定制的不同标题格式。通过以短合成标题(SSC)到密集合成标题(DSC+)为案例研究,我们系统地探索了它们对 CLIP、多模态 LLM 和扩散模型等模型的影响及其与替代文本的交互作用。我们的研究结果表明,同时保留合成标题和替代文本的混合方法可以优于仅使用合成标题的方法,从而提高对齐和性能,每个模型都表现出对特定标题格式的偏好。这项全面的分析为优化标题策略提供了宝贵的见解,从而推动了多模态基础模型的预训练。
大型语言模型 (LLM) 作为评判者已广泛应用于各种基准测试的评估方法中,并作为模型训练中的监督奖励。然而,尽管它们在许多领域表现出色,但其潜在问题却未得到充分探索,这削弱了它们的可靠性和适用范围。因此,我们确定了 12 种关键的潜在偏差,并提出了一种新的自动化偏差量化框架——CALM,该框架通过使用自动化的、以原则为指导的修改来系统地量化和分析 LLM 作为评判者中的每种偏差类型。我们的实验涵盖了多个流行的语言模型,结果表明,虽然先进的模型在整体性能上取得了可喜的成绩,但在某些特定任务中仍然存在显著的偏差。实证结果表明,LLM 作为评判者的可靠性还有提升空间。此外,我们还讨论了这些偏差的显性和隐性影响,并对 LLM 作为评判者的可靠应用提出了一些建议。我们的工作强调了利益相关者需要解决这些问题,并提醒用户在 LLM 作为评判者的应用中谨慎行事。