本文介绍了 SPA,一个新颖的表征学习框架,强调了具身 AI 中 3D 空间感知的重要性。我们的方法利用可微神经渲染技术对多视图图像进行处理,赋予原始视觉 Transformer (ViT) 内在的空间理解能力。我们对具身表征学习进行了迄今为止最全面的评估,涵盖了 8 个模拟器中的 268 个任务,涉及单任务和语言条件下的多任务场景,并采用了多种策略。结果令人信服:SPA 在使用更少训练数据的情况下,始终优于 10 多种最先进的表征方法,包括专门为具身 AI、视觉中心任务和多模态应用而设计的那些方法。此外,我们进行了一系列真实世界的实验,以确认其在实际场景中的有效性。这些结果突出了 3D 空间感知对于具身表征学习的关键作用。我们最强大的模型需要超过 6000 个 GPU 小时才能训练,我们致力于开源所有代码和模型权重,以促进具身表征学习的未来研究。项目页面:https://haoyizhu.github.io/spa/.
工具学习使大型语言模型 (LLM) 能够通过调用工具与外部环境交互,成为缓解其预训练数据固有局限性的有效策略。在这个过程中,工具文档通过为 LLM 提供使用说明起着至关重要的作用,从而促进有效地工具利用。本文着眼于解决 LLM 与外部工具之间理解差距的关键挑战,该挑战源于现有以人为中心的工具文档的不足和不准确。我们提出了一种新颖的框架 DRAFT,旨在通过分析来自 LLM 与外部工具交互的反馈和轨迹来动态地改进工具文档。该方法采用了一种创新的试错方法,包括三个不同的学习阶段:经验收集、从经验中学习和文档重写,以迭代地增强工具文档。通过实施多样性促进探索策略来确保探索多样性,以及工具自适应终止机制来防止过度拟合,同时提高效率,进一步优化了此过程。在多个数据集上的大量实验表明,DRAFT 的迭代式、基于反馈的改进显着提高了文档质量,促使 LLM 更深入地理解和更有效地利用工具。值得注意的是,我们的分析表明,通过我们的方法改进的工具文档表现出强大的跨模型泛化能力。
代码因其精确性和准确性已被证明可以有效地增强大型语言模型的数学推理能力。以往的持续数学预训练工作通常包含使用数学相关包的代码,这些包主要设计用于工程、机器学习、信号处理或模块测试等领域,而不是直接专注于数学推理。在本文中,我们提出了一种新方法,用于生成伴随相应的推理步骤的数学代码,用于持续预训练。我们的方法首先通过整合数学相关的网络数据、使用数学包的代码、数学教科书和合成数据来构建高质量的数学持续预训练数据集。接下来,我们通过从之前收集的数据集中提取 LaTeX 表达式、表达式所需的条件以及表达式的结果来构建推理步骤。基于这些提取的信息,我们生成相应的代码来准确地捕捉数学推理过程。将生成的代码附加到每个推理步骤,得到由成对的自然语言推理步骤及其对应代码组成的数据。将这些数据与原始数据集结合,得到一个 192 亿个词元的性能优异的数学预训练语料库,我们将其命名为 MathCode-Pile。使用该语料库训练几个流行的基础模型显著提高了它们的数学能力,从而创建了 MathCoder2 模型系列。我们所有的数据处理和训练代码都是开源的,确保了整个数据收集和训练管道的完全透明度和易于复制。代码已发布在 https://github.com/mathllm/MathCoder2。
我们提出了一种基于扩散的图像到图像转换的新框架,用于自由视角人脸表演重光照。利用包含在各种光照条件下(包括平光和一次一灯(OLAT)场景)捕获的各种面部表情的特定主题数据集,我们训练了一个扩散模型以实现精确的光照控制,从而能够从平光输入中生成高保真重光人脸图像。我们的框架包括对平光捕获和随机噪声的空间对齐条件,以及集成的光照信息以进行全局控制,利用来自预训练的稳定扩散模型的先验知识。然后将该模型应用于在一致的平光环境中捕获的动态人脸表演,并使用可扩展的动态 3D 高斯 splatting 方法重建以进行新视角合成,以保持重光结果的质量和一致性。此外,我们通过将新颖的面积光照表示与方向光照相结合,引入统一的光照控制,允许对光源大小和方向进行联合调整。我们还使用多个方向光源启用高动态范围成像 (HDRI) 合成,以在复杂光照条件下生成动态序列。我们的评估表明该模型在实现精确的光照控制和跨各种面部表情泛化方面效率很高,同时保留了皮肤纹理和头发等细节特征。该模型准确地再现了复杂的光照效果,如眼部反射、次表面散射、自阴影和透光性,从而在我们的框架内提升了照片真实感。
现有的多模态检索基准主要侧重于评估模型是否能够检索和利用外部文本知识来回答问题。然而,在某些情况下,检索视觉信息比检索文本数据更有益或更容易获取。在本文中,我们介绍了一个多模态检索增强生成基准,MRAG-Bench,在这个基准中,我们系统地识别和分类了视觉增强知识优于文本知识的场景,例如来自不同视角的更多图像。MRAG-Bench 包含 16,130 张图像和 1,353 个由人类标注的多项选择题,涵盖 9 种不同的场景。利用 MRAG-Bench,我们对 10 个开源和 4 个专有的大型视觉语言模型 (LVLMs) 进行了评估。我们的结果表明,所有 LVLMs 在使用图像增强后都比使用文本知识获得了更大的改进,这证实了 MRAG-Bench 是以视觉为中心的。此外,我们使用 MRAG-Bench 进行了广泛的分析,这为检索增强的 LVLMs 提供了宝贵的见解。值得注意的是,表现最好的模型 GPT-4o 在有效利用检索到的知识方面面临挑战,仅在使用真实信息的情况下获得了 5.82% 的改进,而人类参与者观察到的改进幅度为 33.16%。这些发现突出了 MRAG-Bench 的重要性,它鼓励社区增强 LVLMs 更加有效地利用检索到的视觉知识的能力。
多模态大型语言模型(MLLM)在各种任务中展现出令人鼓舞的进步,但它们仍然面临着重大的可信度问题。以往的研究将分割一致性预测(SCP)应用于语言建模,以构建具有统计保证的预测集。然而,这些方法通常依赖于内部模型的 logits 或局限于多项选择设置,这阻碍了它们在动态、开放式环境中的泛化性和适应性。在本文中,我们介绍了 TRON,一个适用于任何支持在开放式和封闭式场景中进行采样的 MLLM 的两步风险控制和评估框架。TRON 包含两个主要组成部分:(1) 一种新颖的一致性评分,用于对最小大小的响应集进行采样,以及 (2) 一种非一致性评分,用于根据自一致性理论识别高质量的响应,通过两个特定的风险级别控制错误率。此外,我们首次研究了开放式环境中预测集中的语义冗余,这为基于平均集大小的 MLLM 提供了一个有希望的评估指标。我们在四个视频问答 (VideoQA) 数据集上使用八个 MLLM 进行的综合实验表明,TRON 达到了由两个用户指定的风险级别限定的预期错误率。此外,去重后的预测集在保持适应性的同时,在不同风险级别下更有效率和稳定,更适合进行风险评估。
由于难以获取大量真实世界数据,机器人模拟已成为并行训练和模拟到现实迁移的关键,突出了可扩展的模拟机器人任务的重要性。基础模型在自主生成可行的机器人任务方面展现出令人印象深刻的能力。然而,这种新的范式强调了对这些自主生成的任务进行充分评估的挑战。为了解决这个问题,我们提出了一种针对生成式模拟的综合评估框架。我们的框架将评估分为三个核心方面:质量、多样性和泛化能力。对于单任务质量,我们使用大型语言模型和视觉语言模型来评估生成任务的真实性和生成轨迹的完整性。在多样性方面,我们通过任务描述的文本相似度和基于收集的任务轨迹训练的世界模型损失来衡量任务多样性和数据多样性。对于任务级泛化,我们评估了用多个生成任务训练的策略在未见任务上的零样本泛化能力。在三个代表性任务生成管道上进行的实验表明,我们框架的结果与人工评估高度一致,证实了我们方法的可行性和有效性。研究结果表明,虽然某些方法可以实现质量和多样性指标,但没有一种方法在所有指标上都表现出色,这表明需要更加关注平衡这些不同指标。此外,我们的分析进一步突出了当前工作面临的泛化能力低下的共同挑战。我们的匿名网站:https://sites.google.com/view/evaltasks。
大型语言模型(LLMs)在机器翻译(MT)方面取得了显著的质量提升。然而,目前大多数关于 MT-LLMs 的研究在处理整个文档时,仍然面临着保持翻译一致性和准确性的重大挑战。本文介绍了 DelTA,一个旨在克服这些局限性的文档级翻译代理。DelTA 具有一个多级记忆结构,它存储跨不同粒度和跨度的信息,包括专有名词记录、双语摘要、长期记忆和短期记忆,这些记忆由辅助的基于 LLMs 的组件不断检索和更新。实验结果表明,DelTA 在翻译一致性和质量方面显著优于四个开源/闭源 LLMs 和两个代表性文档翻译数据集上的强基线,一致性得分平均提高了 4.58 个百分点,COMET 得分平均提高了 3.16 个百分点。DelTA 采用逐句翻译策略,确保没有句子遗漏,并提供了一种与主流方法相比的内存高效解决方案。此外,DelTA 提高了代词翻译的准确性,代理的摘要组件也显示出作为基于查询的摘要任务工具的潜力。我们在 https://github.com/YutongWang1216/DocMTAgent 上发布了我们的代码和数据。
大型语言模型(LLMs)已在众多自然语言处理任务中取代了传统方法。然而,在命名实体识别(NER)中,现有的基于 LLMs 的方法...
当前的 LLM 基准测试主要关注评估模型对事实和语义关系的记忆,主要评估长期记忆的语义方面。然而,在人类中,长期记忆还包括情景记忆,它将记忆与其上下文联系起来,例如记忆发生的时间和地点。将记忆置于情境的能力对于许多认知任务和日常生活功能至关重要。这种形式的记忆在现有的基准测试中尚未在 LLM 中得到评估。为了弥合评估 LLM 中记忆的差距,我们引入了序列顺序回忆任务 (SORT),我们从用于研究认知心理学中情景记忆的任务中改编而来。SORT 要求 LLM 回忆文本片段的正确顺序,并提供了一个既易于扩展又无需任何额外注释的通用框架。我们提供了一个初始评估数据集 Book-SORT,它包含从最近添加到公共领域的 9 本书中提取的 36,000 对片段。根据一项有 155 名参与者的人类实验,我们发现人类可以根据对一本书的长期记忆来回忆序列顺序。我们发现,当在 SORT 评估期间提供相关的文本时,模型可以以很高的准确率执行任务。然而,当仅在训练期间提供书籍文本时,LLM 在 SORT 上的表现就差强人意。通过允许评估记忆的更多方面,我们相信 SORT 将有助于记忆增强模型的不断发展。