arXiv:2406.11148v3 宣告类型: replace-cross
摘要: 少样本识别(FSR)的目标是在下游任务中仅使用少量每个概念的标记示例来训练分类模型,而数据注释成本可能非常高。我们通过利用预训练的视觉-语言模型(VLM)来解决FSR问题。特别是探索了检索增强学习(RAL),该方法检索开放数据,例如VLM的预训练数据集,以更好地服务于下游任务。RAL已经在零样本识别中进行了研究,但在FSR中仍然未被充分利用。尽管将RAL应用于FSR似乎很简单,但我们观察到了有趣且新颖的挑战和机遇。首先,出人意料的是,对大量检索数据进行VLM的微调表现不如最先进的零样本方法。这是由于检索数据的分布不平衡以及其与下游任务中少量样本的领域差距。其次,更令人惊讶的是,我们发现仅在少量样本上对VLM进行微调显著优于之前的FSR方法,且在检索数据和少量样本数据的混合上进行微调效果更佳。第三,为了减轻分布不平衡和领域差距的问题,我们提出了阶段检索增强微调(SWAT),该方法首先对混合数据进行端到端的微调,然后再训练分类器以适应少量样本数据。在九个流行的基准测试上的广泛 experiments 表明,SWAT 的性能显著优于之前的任何方法,准确率提高了超过 6%。
arXiv:2406.10819v2 广播类型: replace-cross
摘要: 最近,多模态大语言模型(MLLMs)被用作代理,通过直接感知图形用户界面(GUI)并生成相应的命令来控制键盘和鼠标输入。然而,当前的代理主要在静态环境中展现出强大的理解能力,并且主要应用于相对简单的领域,如Web或移动界面。我们认为,一个稳健的GUI代理应该能够感知GUI上的时间信息,包括动态Web内容和多步任务。此外,它应该对各种GUI场景有一个全面的理解,包括桌面软件和多窗口交互。为此,本文介绍了新的数据集GUI-World,该数据集包括细致的人-MLLM注解,广泛涵盖了六个GUI场景和三种格式下的八种GUI导向问题。我们评估了当前最先进的MLLMs,包括图像LLM和视频LLM,在理解各种类型的GUI内容,尤其是动态和顺序内容方面的能力。我们的发现表明,当前的模型在没有手动注释的关键帧或操作历史的情况下难以处理动态GUI内容。另一方面,由于GUI视频数据集稀疏,视频LLM在所有GUI导向任务中表现不佳。因此,我们采取了初步步骤,利用微调后的视频LLM GUI-Vid作为GUI导向助手,展示了对各种GUI任务更好的理解。然而,由于基础LLM性能的局限性,我们认为使用视频LLM作为GUI代理仍然是一个重大挑战。我们相信,我们的工作为未来在动态GUI内容理解方面的研究提供了有价值的见解。所有数据集和代码均可在以下网址公开访问:https://gui-world.github.io。
arXiv:2406.04940v2 Announce Type: replace-cross
摘要:陆地碳通量提供了关于生物圈健康及其吸收人为CO$_2$排放能力的重要信息。预测碳通量的重要性促使了数据驱动碳通量建模(DDCFM)这一新兴领域的出现,该领域使用统计技术从生物物理数据中预测碳通量。然而,这一领域缺少一个标准化的数据集来促进模型之间的比较。为了解决这一缺憾,我们介绍了CarbonSense,这是为DDCFM准备的第一个机器学习数据集。CarbonSense将385个全球位置的测量碳通量、气象预测因子和卫星影像整合在一起,提供了全面的覆盖范围,有利于稳健的模型训练。此外,我们还提供了一种基于当前最先进的DDCFM方法的基准模型和一种新型变压器模型。我们的实验展示了多模态深度学习技术在该领域带来的潜在收益。通过提供这些资源,我们旨在降低其他深度学习研究人员开发新模型和推动碳通量建模领域进步的门槛。
arXiv:2406.03665v2 通知类型: 重写交叉
摘要:趋势过滤通过应用平滑性来简化复杂的时间序列数据,以滤除噪声并强调与原始数据的邻近性。然而,现有的趋势过滤方法因“近似性”而未能反映趋势中的突变变化,导致平滑性保持恒定。这种近似性均匀地滤除了时间序列数据的尾部分布,这些极端值包括突变变化和噪声。在本文中,我们提出了趋势点检测,将其表述为一个马尔可夫决策过程(MDP),这是一种识别应反映在趋势中的关键点的新型方法,不同于近似性。我们将这些关键点称为动态趋势点(DTPs),并通过插值它们来提取趋势。为了识别DTPs,我们利用在离散动作空间内的强化学习(RL)以及预测平方和损失函数作为奖励,并将其称为动态趋势过滤网络(DTF-net)。DTF-net结合了灵活的噪声过滤,在去除其他子序列所需的噪声的同时,保留关键的原始子序列。我们展示了与其它趋势过滤算法相比,DTF-net在捕捉突变变化方面更为出色,并且提高了预测性能,因为它是预测突变变化而不是对其进行平滑处理。
arXiv:2405.14701v5 通告类型: replace-cross
摘要:场景文本合成涉及将指定文本渲染到任意图像上。当前的方法通常将此任务以端到端的方式进行建模,但在训练过程中缺乏有效的字符级别指导。此外,它们的文本编码器在单一字体类型上进行预训练,难以适应实际应用中遇到的多样字体风格。因此,这些方法在多风格场景中会出现字符失真、重复和缺失的问题。为了解决这个问题,本文提出了一种名为DreamText的高保真场景文本合成方法。我们的主要思想是重构扩散训练过程,引入更精细且针对此任务的指导,以暴露并修正模型在字符级别上的注意力,并加强其对文本区域的学习。这种转变提出了混合优化挑战,涉及离散和连续变量。为了有效应对这一挑战,我们采用了启发式交替优化策略。同时,我们联合训练文本编码器和生成器,以全面学习和利用训练数据集中存在的各种字体。这一联合训练无缝地集成到了交替优化过程中,促进了学习字符嵌入与重新估计字符注意力之间的协同关系。具体而言,在每个步骤中,我们首先将交叉注意力图中潜在的字符生成位置信息编码为潜在字符掩码。然后,利用这些掩码更新当前步骤中特定字符的表示,这反过来使得生成器能够在后续步骤中纠正字符的注意力。定性和定量结果均展示了我们方法相对于当前最先进的方法的优势。
arXiv:2404.09387v3 公告类型:替换交叉
摘要:自监督对比学习模型,如CLIP,已经在许多下游任务中为视觉语言模型设立了新的基准。然而,它们依赖于严格的一对一映射,忽视了文本和图像之间及其内部复杂且往往多维的关系。为此,我们提出了RankCLIP,这是一种新颖的预训练方法,它超越了CLIP及其变体的严格一对一匹配框架。通过将传统的成对损失扩展为列表一致,利用内在模态和跨模态排名一致性,RankCLIP改进了对齐过程,使其能够捕捉每个模态内及其之间的细腻的多对多关系。通过全面的实验,我们展示了RankCLIP在各种下游任务中的有效性,尤其是在零样本分类任务中显著优于最先进的方法,突显了这种增强的学习过程的重要性。
arXiv:2403.13002v4 宣告类型: replace-cross
摘要:各种创意思维方法,如形态学分析和仿生设计,已被开发出来以辅助创造性问题解决和创新。其中,发明问题解决理论(TRIZ)因其最佳知名而脱颖而出。然而,TRIZ的复杂性及其对用户知识、经验和推理能力的依赖限制了其实践性。为解决这一问题,我们介绍了AutoTRIZ,这是一个结合了大规模语言模型(LLMs)的人工创意思维系统,以自动化和增强TRIZ方法论。通过利用LLMs丰富的预训练知识和高级推理能力,AutoTRIZ提供了工程创新的新型、生成性和可解释性方法。AutoTRIZ以用户的初始问题陈述作为输入,自动执行TRIZ推理过程,并生成结构化的解决方案报告。我们通过与教科书案例和实际应用(设计电池热管理系统(BTMS))进行比较实验来展示和评估AutoTRIZ的有效性。此外,提出的基于LLM的框架具有扩展以自动化其他基于知识的创意思维方法(如SCAMPER、设计启发式和仿生设计)的潜力,为AI驱动的创新工具的新时代铺平了道路。
arXiv:2403.07376v2 通知类型: 替换-交叉
摘要:视觉-语言导航(VLN)作为嵌入式人工智能的关键研究问题,要求一个嵌入式代理遵循自然语言指令在复杂的3D环境中导航。最近的研究通过提高导航推理准确性和可解释性,突显了大型语言模型(LLMs)在VLN中的有希望的能力。然而,它们通常以离线的方式使用,通常会导致VLN任务与LLM训练语料库之间存在巨大的领域差距。本文介绍了一种名为导航思维链(NavCoT)的新型策略,我们通过参数高效的领域内训练,使LM自动进行导航决策,从而以低成本的方式显著减轻了领域差距。具体来说,在每个时间步,LM被提示预测导航思维链:1)作为世界模型,根据指令想象下一个观测;2)选择与想象最佳对齐的候选观测;3)基于前几步的推理确定动作。通过为训练构建形式化的标签,LM可以学习生成改进动作决策所需且合理的思想链条输出。在各种训练设置和流行的VLN基准测试(例如,房间到房间(R2R)、房间跨房间(RxR)、房间对房间(R4R))上的实验结果表明,NavCoT在直接动作预测变体中表现出显著的优势。通过简单的参数高效微调,我们的NavCoT在R2R数据集上的表现优于最近的基于GPT4的方法,相对改进约为7%。我们相信,NavCoT将有助于解锁更多适应任务和可扩展的基于LLM的嵌入式代理,这对开发实际的机器人应用非常有益。代码可在 https://github.com/expectorlin/NavCoT 获取。
arXiv:2402.08855v2 宣布类型:替换交叉
摘要:写作是一种已经被证实支持想法生成和创意的方法。尽管大规模语言模型(LLMs)已经成为不同写作者提供各种写作辅助的普遍工具,但由LLMs支持的写作系统在捕捉有效地支持和创意探索所需的具体个性化和控制方面往往做得不够好。为了解决这些挑战,我们引入了GhostWriter,这是一个增强的写作设计探针,使用户能够行使增强的自主权和个人化能力。GhostWriter利用LLMs隐式学习用户的期望写作风格,以实现无缝个性化,并且通过展示明确的教学时刻来促进风格的细化和反思。我们研究了18名使用GhostWriter进行编辑和创意任务的参与者,发现它帮助用户创作个性化文本,并通过提供多种方式引导系统输出来提升用户的能力。基于这项研究,我们提供了人们对AI辅助写作关系的见解,并提出了在类似共创系统中促进用户自主性的设计建议。
arXiv:2402.07625v5 宣告类型: replace-cross
摘要: 我们介绍了自主数据选择(AutoDS)方法,该方法利用基础语言模型本身作为零样本“生成分类器”自动生成高质量的数学文本。与先前需要人工注释或训练专用数据过滤器的方法不同,AutoDS 仅依赖于模型的logits来确定给定段落是否具有数学信息性和教育性。通过将AutoDS集成到持续预训练管道中,我们在使用远少于之前方法的token数量的情况下,显著提升了对具有挑战性的数学基准(MATH、GSM8K和BBH)的下游性能。实证结果表明,与强劲的基线方法相比,我们的方法在预训练token效率方面实现了约两倍的提升,强调了自主数据选择在增强数学推理方面的发展潜力。我们发布了我们的自动生成AutoMathText数据集,以促进未来在自动化领域特定数据整理方面的研究。AutoMathText数据集可在https://huggingface.co/datasets/math-ai/AutoMathText获取。代码可在https://github.com/yifanzhang-pro/AutoMathText获取。