arXiv:2409.15272v4 公告类型: replace-cross
摘要:近期关于多模态大型语言模型(MLLMs)的进展集中在整合多种模态上,但它们在同时处理和在不同输入之间进行推理方面的能力仍然未被充分探索。我们引入了OmniBench,这是一个新的基准测试,旨在评估模型在同时识别、解释和在视觉、声学和文本输入之间进行推理的能力。我们将能够进行此类三模态处理的语言模型称为全模态语言模型(OMLS)。OmniBench 包含高质量的人工注释,这些注释要求在所有模态之间进行集成理解。我们的评估显示:i) 开源 OLM 在三模态上下文中的指令遵循和推理方面存在显著限制;ii) 大多数基线模型即使采用文本替代图像/音频输入也表现不佳(准确性约为 50%)。为了应对这些限制,我们开发了OmniInstruct,这是一个用于训练OMLS的96K样本指令调优数据集。我们呼吁开发更 robust 的三模态集成技术和训练策略以提升OMLS的性能。代码和数据可在我们的仓库(https://github.com/multimodal-art-projection/OmniBench)中找到。
arXiv:2409.12249v2 通告类型: 交叉替换
摘要: 无范例计数旨在无需对物体或范例进行密集注释的情况下,计数感兴趣的目标物体。为此,我们提出了一种门控上下文感知 Swin-UNet (GCA-SUNet) 来直接将输入图像映射为可计数物体的密度图。具体而言,由一组 Swin 变形器形成的编码器用于提取 robust 特征表示,而设计了一种门控上下文感知调制块,通过门机制抑制不相关的物体或背景,并通过自相似矩阵利用对感兴趣物体的注意力支持。门控策略也被整合到Swin-UNet 的瓶颈网络和解码器中,以突出最相关于感兴趣物体的特征。通过明确利用可计数物体之间的注意力支持,并通过门机制消除不相关特征,提出的 GCA-SUNet 集中于并计数感兴趣物体,而无需依赖预定义的类别或范例。在实时数据集如 FSC-147 和 CARPK 上的实验结果表明,GCA-SUNet 在现有方法中显著且一致地表现更优。代码可在 https://github.com/Amordia/GCA-SUNet 获取。
arXiv:2409.11593v2 宣告类型: replace-cross
摘要:自主操作的代理受益于终身学习能力。然而,兼容的训练算法必须符合这些系统的分散特性,这在参数数量和计算资源方面都提出了限制。前馈-前馈(FF)算法就是其中之一。FF 仅依赖于与推理相同的前向操作来优化逐层目标。这一纯前向方法消除了传统反向传播中所需的转置操作的需要。尽管有潜力,FF 在大多数标准基准任务上未能达到最先进的性能,部分原因是由于不稳定的无监督学习中生成负数据的方法不可靠。
在这项工作中,我们提出了自我对比前馈-前馈(SCFF)算法,这是一种竞争性的训练方法,旨在缩小这一性能差距。SCFF 受标准自我监督对比学习用于视觉任务的启发,生成适用于各类数据集的正和负输入。该方法在多个基准数据集(包括 MNIST、CIFAR-10、STL-10 和 Tiny ImageNet)上的无监督局部学习算法中表现出优越的性能。我们还将 FF 的应用扩展到递归神经网络的训练,进一步将其应用于序列数据任务的实用性。这些发现为资源受限的边缘设备上的高精度、实时学习铺平了道路。
arXiv:2406.17819v4 宣告类型: replace-cross
摘要:科学和技术日益需要有效的机制,以确保黑盒机器学习算法的可靠和可控性能。这些性能保证应该条件性地成立,也就是说,无论输入如何,性能保证都应该至少大致成立。然而,除了如种族和性别这样的模式离散分类之外,正确的条件化概念定义起来可能很困难。例如,在图像分割问题中,我们希望不确定性反映测试样本的内在难度,但这可能很难通过一个条件事件来捕捉。基于Gibbs等人[2023]的近期工作,我们提出了一种实现统计风险(损失函数的期望值)近似条件控制的方法,通过适应测试样本的难度来进行调整。我们的框架超越了基于用户提供条件事件的传统条件风险控制,转向通过数据驱动的方法确定适当的函数类来进行条件化。我们将此框架应用于各种回归和分割任务,实现了对模型性能的更精细控制,并展示出通过不断监测和调整这些参数,可以实现比常规风险控制方法更高的精度。
arXiv:2406.15341v2 类型: replace-cross
摘要:近年来,机器学习的进步显著提升了从基因表达数据中识别与疾病相关的基因的能力。然而,这些过程常常需要大量的专业知识和人工努力,限制了其可扩展性。基于大型语言模型(LLM)的代理显示出自动化这些任务的潜力,因为它们的解决问题能力不断提升。为了支持这些方法的评估和开发,我们引入了GenoTEX,一个用于基因表达数据自动化分析的基准数据集。GenoTEX提供了解决广泛基因识别问题的标注代码和结果,涵盖数据集选择、预处理和统计分析,遵循计算基因组学的标准流程。基准数据集中包含了生物信息学家专家编写的标注,以确保准确性与可靠性。为了提供这些任务的基线,我们展示了GenoAgent,一个采用多步骤编程工作流程并具有灵活自我纠正机制的LLM代理团队,共同分析基因表达数据集。我们的实验展示了基于LLM方法在分析基因组数据方面的潜力,错误分析则突出了挑战并指出了未来改进的方向。我们建议GenoTEX作为评估和提升基因表达数据分析自动化方法的有前景的资源。基准数据集可在https://github.com/Liu-Hy/GenoTex获取。
arXiv:2406.12831v3 通知类型: 替换-横跨
摘要:视频编辑是数字媒体的基本支柱,涵盖了娱乐、教育和专业沟通应用。然而,之前的许多方法往往忽视了全面理解全局和局部上下文的必要性,导致在时空维度上的编辑不够准确且不一致,尤其是在处理长视频时更为突出。在本文中,我们提出了VIA,一种统一的时空视频适应框架,用于全局和局部视频编辑,推动了在数分钟长度的视频上一致编辑的极限。首先,为了确保帧内的局部一致性,我们设计了测试时编辑适应,将预训练的图像编辑模型适应以提高潜在编辑方向与文本指令之间的一致性,并调整遮罩潜变量以实现精确的局部控制。此外,为了在整个视频序列中保持全局一致性,我们引入了时空适应,该适应递归地在关键帧中收集一致的注意力变量,并战略性地在整个序列中应用它们以实现编辑效果。广泛实验表明,与基准方法相比,我们的VIA方法产生的编辑对源视频更加忠实,时空上下文更加连贯,局部控制更加精确。更重要的是,我们展示了VIA可以在几分钟内实现一致的长视频编辑,从而为长视频序列上的高级视频编辑任务解锁潜力。
arXiv:2405.16439v3 宣告类型:替代交叉
摘要:在大学校园、餐馆、超市和医院等拥挤的公共空间中,社会机器人导航是一个日益重要的研究领域。实现这一目标的核心策略之一是通过逆强化学习(IRL)学习人类的意图——支配其运动的潜在心理因素。尽管在IRL方面取得了显著进步,但在这些场景中,如过往、交叉口、转向、穿行等紧密耦合的社会互动下,同时学习多个代理的奖励函数在稠密的非结构化行人 crowd 中仍然难以实现。在本文中,我们提出了一种新的适用于现实世界非结构化行人 crowd 的多代理最大熵逆强化学习算法。我们方法的核心在于一种简单但有效的数学技巧,我们称之为可处理性-合理性折衷技巧,该技巧以略微降低准确性为代价实现了可处理性。我们在ETH、UCY、SCAND、JRDB以及一个新的名为Speedway的数据集上,将我们的方法与经典的单代理最大熵IRL以及最先进的轨迹预测方法进行了比较。Speedway数据集是在大学繁忙的交叉口收集的,重点研究稠密复杂的代理互动。我们的主要发现表明,在稠密的Speedway数据集上,我们的方法在顶级七种基线方法中排名第一,单代理IRL性能提高了2倍以上;在ETH/UCY等稀疏数据集上,我们的方法在顶级七种基线方法中排名第3,与最先进的基于大型Transformer的编码器-解码器模型相比具有竞争力。
arXiv:2405.04118v2 宣告类型: replace-cross
摘要:现代人工智能系统如自动驾驶汽车和游戏代理已经在超人的性能上取得进展,但在人性化的一般化、可解释性以及与人类用户的人机交互方面往往存在不足。受人类语言与决策丰富互动的启发,我们介绍了一种语言瓶颈下的策略学习框架(Policy Learning with a Language Bottleneck, PLLB),该框架使AI代理能够生成描述奖励行为背后的高层策略的语言规则。PLLB 交替进行一个由语言模型引导的*规则生成*步骤和一个由规则引导的*更新*步骤,即使一个规则不足以描述整个复杂的策略也是如此。在包括两人博弈信号游戏、迷宫导航、图像重建和机器人抓取规划在内的五个不同任务中,我们展示了 PLLB 代理不仅能学习更加可解释和普遍适用的行为,还能将学到的规则分享给人类用户,从而促进更有效的人类-人工智能协同工作。我们在 https://github.com/meghabyte/bottleneck 提供了实验的源代码。
arXiv:2404.14963v5 通告类型: replace-cross
摘要:链式思考(CoT)提示在各种推理任务中增强了大型语言模型(LLMs)的表现。然而,CoT 在处理复杂的数学文字问题时仍存在不足,通常会遭受三种缺陷:语义理解错误、计算错误和步骤缺失错误。此前的研究主要解决了计算错误和步骤缺失错误,但忽略了语义理解错误,这是限制LLMs推理性能的主要因素。为此,我们提出了一种简单而有效的方法,即深层理解问题(DUP),通过解决语义理解错误来提高LLMs的数学问题解决能力。我们方法的核心是促使LLMs深入理解问题并提取用于更好推理的关键问题解决信息。在10个不同的推理基准上的广泛实验表明,我们的DUP方法在所有对照组中都表现出显著的优越性。更令人鼓舞的是,DUP在GSM8K基准上取得了新的SOTA结果,在零样本设置下准确率达到97.1%。
arXiv:2404.06511v2 宣告类型: replace-cross
摘要:本文通过分解多阶段、模块化推理框架解决视频问答(videoQA)任务。此前的模块化方法通过单一未基于视觉内容的规划阶段显示出了一定的前景。然而,通过一个简单而有效的基线,我们发现这样的系统在具有挑战性的视频问答设置中会导致脆弱的行为。因此,与传统的单一阶段规划方法不同,我们提出了一种多阶段系统,该系统包括事件解析器、定位阶段和最终推理阶段,并结合外部记忆。所有阶段都是无需训练的,并使用大模型的少量提示进行执行,在每个阶段生成可解释的中间输出。通过将潜在的规划和任务复杂性分解,我们的方法MoReVQA在标准视频问答基准(NExT-QA、iVQA、EgoSchema、ActivityNet-QA)上取得了最先进的结果,并扩展到了相关任务(基于视觉内容的视频问答、段落 captioning)。