LLM2D

arXiv 论文列表

三维视觉语言接地,其重点在于将语言与三维物理环境对齐,是具身智能体发展中的基石。与二维领域最近的进展相比,将语言接地到三维场景中面临着几个重大挑战:(i) 由于物体配置多样、属性丰富和关系错综复杂,三维场景固有的复杂性;(ii) 支持接地学习的成对三维视觉语言数据的稀缺性;(iii) 缺乏统一的学习框架来从接地三维数据中提取知识。在这项工作中,我们旨在通过考察在室内环境中系统地扩展三维视觉语言学习的潜力来解决三维视觉语言中的这三个主要挑战。我们介绍了第一个百万规模的三维视觉语言数据集 SceneVerse,它包含约 68,000 个三维室内场景,并包含来自人类注释和我们可扩展的场景图生成方法的 250 万个视觉语言对。我们证明了这种扩展允许使用一个统一的预训练框架,即场景接地预训练 (GPS),用于三维视觉语言学习。通过大量的实验,我们展示了 GPS 的有效性,在所有现有的三维视觉接地基准测试中都取得了最先进的性能。SceneVerse 和 GPS 的巨大潜力通过在具有挑战性的三维视觉语言任务中的零样本迁移实验得到揭示。项目网站:https://scene-verse.github.io。
发布时间: 9/25/2024
查看原文
认知动力学对于人类理解世界至关重要。大型语言模型 (LLM) 的最新进展揭示了其在认知模拟方面的潜力。然而,这些基于 LLM 的认知研究主要集中在静态建模上,忽视了认知的动态本质。为了弥合这一差距,我们提出了 LLM 认知动力学的概念,并借鉴纵向研究的灵感,提出了相应的任务。针对该任务,我们开发了 CogBench,一个评估 LLM 认知动力学的新基准,并通过参与者调查对其进行了验证。我们还为 CogBench 设计了两个评估指标,包括真实性和合理性。认识到 LLM 的固有静态性质,我们引入了 CogGPT 来完成该任务,它具有创新的迭代认知机制,旨在增强终身认知动力学。实证结果表明 CogGPT 在现有方法中的优越性,特别是在其促进持续信息流下特定角色的认知动力学方面。
发布时间: 9/25/2024
查看原文
在过去十年中,训练深度神经网络以最大化目标函数已成为机器学习成功的标准方法。如果目标函数可微分,这些网络可以通过监督学习进行优化。然而,对于许多有趣的问题,情况并非如此。常见的目标函数,如交并比 (IoU)、双语评估研究 (BLEU) 分数或奖励,无法通过监督学习进行优化。一个常见的解决方法是定义可微分的代理损失函数,但这会导致相对于实际目标函数的次优解。近年来,强化学习 (RL) 已成为优化深度神经网络以最大化不可微分目标函数的有希望的替代方法。例如,通过人工反馈对齐大型语言模型、代码生成、目标检测或控制问题。这使得 RL 技术与更广泛的机器学习受众相关。然而,由于方法范围广以及通常非常理论化的呈现方式,该主题需要大量时间才能掌握。在本介绍中,我们采用了与传统强化学习教科书不同的方法。我们不是关注表格问题,而是将强化学习介绍为监督学习的推广,我们首先将其应用于不可微分目标函数,然后应用于时间问题。假设读者仅具备监督学习的基础知识,在阅读本教程后,他们将能够理解最先进的深度 RL 算法,如近端策略优化 (PPO)。
发布时间: 9/25/2024
查看原文
视觉问答(VQA)是一项多模态任务,它融合了计算机视觉(CV)和自然语言处理(NLP)的元素,旨在对任何视觉输入生成答案。随着时间的推移,VQA的范围已从专注于大量自然图像数据集扩展到包含合成图像、视频、3D环境和各种其他视觉输入的数据集。大型预训练网络的出现已将早期依赖于特征提取和融合方案的VQA方法转变为视觉语言预训练(VLP)技术。然而,缺乏涵盖传统VQA架构和当代VLP方法的全面调查。此外,VQA视角下的VLP挑战尚未得到充分探索,为潜在的开放问题留下了空间。我们的工作对VQA领域进行了调查,深入探讨了VQA数据集和方法在该领域历史上的复杂性,介绍了详细的分类法来对VQA的各个方面进行分类,并突出了最新的趋势、挑战和改进范围。我们进一步将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一组供未来研究的开放问题。这项工作旨在通过阐明潜在的研究途径和扩展该领域的边界,为初学者和专家提供指导。
发布时间: 9/25/2024
查看原文
雇主们正在招聘流程的各个环节中采用算法招聘技术。由于算法招聘技术的高风险性和结构性不平等,算法公平性在这一领域尤为适用。不幸的是,大多数相关研究都只提供了部分处理,往往受限于两种相互竞争的叙述,一种乐观地认为算法招聘可以取代有偏见的人工招聘决定,另一种悲观地认为算法招聘会导致歧视自动化。算法招聘是否,更重要的是,哪些类型的算法招聘,能够比现有的低技术替代方案更少偏见,更能造福社会,这个问题仍然没有得到解答,这对可信度造成了损害。这份跨学科综述针对从业人员和研究人员,以平衡和整合的方式涵盖了算法招聘和公平性的系统、偏差、度量、缓解策略、数据集和法律方面。我们的研究通过突出目前的机会和局限性,为未来工作提供建议,以确保所有利益相关者都能分享利益,从而支持对这项技术的语境化理解和治理。
发布时间: 9/25/2024
查看原文
我们介绍了 C-Pack,这是一个资源包,它极大地推动了通用中文嵌入领域的发展。C-Pack 包含三个关键资源:1) C-MTEB 是一个全面的中文文本嵌入基准,涵盖 6 项任务和 35 个数据集。2) C-MTP 是一个从带标签和无标签中文语料库中整理的大规模文本嵌入数据集,用于训练嵌入模型。3) C-TEM 是一个包含多种尺寸的嵌入模型家族。我们的模型在 C-MTEB 上超越了所有先前的中文文本嵌入,在发布时提升了高达 10%。我们还整合和优化了 C-TEM 的整套训练方法。除了我们关于通用中文嵌入的资源外,我们还发布了英语文本嵌入的数据和模型。英语模型在 MTEB 基准测试中取得了最先进的性能;同时,我们发布的英语数据是中文数据的两倍。所有这些资源都可以在 https://github.com/FlagOpen/FlagEmbedding 上公开获取。
发布时间: 9/25/2024
查看原文
体量设计,也称为质量设计,是专业建筑设计中第一个也是最关键的步骤,其本质上是顺序性的。由于体量设计过程需要仔细的设计决策和迭代调整,底层的顺序设计过程为设计师编码了宝贵的信息。许多努力致力于自动生成合理的体量设计,但生成的解决方案质量参差不齐,评估设计解决方案要么需要一套过分全面的指标,要么需要昂贵的人工专业知识。虽然以前的方法侧重于学习最终设计而不是顺序设计任务,但我们建议从专家或高性能设计序列集合中编码设计知识,并使用基于Transformer的模型提取有用的表示。随后,我们建议利用学习到的表示来完成关键的下游应用,例如设计偏好评估和过程式设计生成。我们通过估计学习到的表示的密度来开发偏好模型,而我们训练了一个自回归Transformer模型用于顺序设计生成。我们利用数千个顺序体量设计的新数据集来展示我们的想法。我们的偏好模型可以比较两个任意给定的设计序列,在针对随机设计序列的评估中准确率几乎达到90%。我们的自回归模型也能够从部分设计序列自动完成体量设计序列。
发布时间: 9/25/2024
查看原文
由于试错的本质,将强化学习算法应用于安全关键的现实世界应用(如自动驾驶、人机交互、机器人操作等)通常具有挑战性,因为这些应用无法容忍错误。近年来,安全强化学习(即约束强化学习)在文献中迅速兴起,其中智能体在满足约束条件的同时探索环境。由于算法和任务的多样性,比较现有的安全强化学习算法仍然很困难。为了填补这一空白,我们引入了 GUARD,一个通用的统一安全强化学习开发基准。与现有的基准相比,GUARD 具有以下几个优势。首先,GUARD 是一个通用的基准,包含各种强化学习智能体、任务和安全约束规范。其次,GUARD 全面涵盖了最先进的安全强化学习算法,并提供了自包含的实现。第三,GUARD 在任务和算法方面高度可定制。我们使用 GUARD 在各种任务设置中对最先进的安全强化学习算法进行了比较,并建立了未来工作可以借鉴的基线。
发布时间: 9/25/2024
查看原文
布尔可满足性 (SAT) 问题作为理论计算机科学中一个引人注目的 NP 完全问题,在广泛的计算相关应用中扮演着核心角色。在多种场景下,对 SAT 求解器的利用和优化需要大量的工业级高质量 SAT 实例,然而,现实世界中这类实例非常有限。为了解决数据不足问题,本文提出了一种名为 W2SAT 的框架,通过隐式地从给定的现实世界/工业实例中学习内在结构和属性来生成 SAT 公式。为此,我们引入了名为加权文字关联图 (WLIG) 的新型 SAT 表示,该表示具有强大的表示能力和泛化能力,并且可以通过专门的基于学习的图生成模型进行有效地生成。然后将从 WLIG 解码到 SAT 问题建模为寻找重叠团,并使用一种名为最优权重覆盖 (OWC) 的新型爬山优化方法。实验表明,与以前的方法相比,我们提出的 WLIG 诱导方法在图指标、效率和可扩展性方面具有优越性。此外,我们还讨论了基于图的 SAT 生成在现实世界应用中的局限性,特别是在利用生成的实例进行 SAT 求解器参数调优时,并提出了一些潜在的方向。
发布时间: 9/25/2024
查看原文
本文探讨了对大型语言模型 (LLM) 能力的评估。我们展示了 GPT-4 在几个确定性任务上的性能测量结果;每个任务都涉及一个基本计算,并以从一个大型定义明确的总体中抽取的某个元素作为输入参数(例如,计算列表中的元素数量,将两个 k 位数相乘等)。我们针对每个任务检查了几个条件,并进行了足够的试验,以便能够检测到统计学上的显著差异。这使我们能够研究任务准确性对查询措辞和输入参数总体的敏感性。我们发现,任务提示或输入总体中看似微不足道的修改会导致差异远远大于抽样效应所能解释的范围。例如,在简单的列表计数任务上的性能会随着查询措辞和列表长度而变化,但也会随着列表组成(即要计数的项目)和对象频率而变化(例如,当一个元素占列表的 $\approx$ 50% 时,与它占 $\approx$ 70% 时相比,成功率不同)。我们得出结论,量化 LLM 能力的努力很容易屈服于语言固定效应谬误,在这种谬误中,实验观察结果被不当地推广到数据所支持的范围之外。一个后果似乎是,基于与人类交互而形成的直觉,对于哪些输入修改应该“对 LLM 性能没有影响”,提供了一个非常不可靠的指导。
发布时间: 9/25/2024
查看原文