LLM2D

arXiv 论文列表

作者: Deok-Kyeong Jang, Dongseok Yang, Deok-Yun Jang, Byeoli Choi, Donghoon Shin, Sung-hee Lee
本文介绍了 ELMO,一个针对单个 LiDAR 传感器设计的实时上采样动作捕捉框架。ELMO 被建模为一个条件自回归 Transformer 基于的上采样动作生成器,能够从 20 fps 的 LiDAR 点云序列中实现 60 fps 的动作捕捉。ELMO 的关键特征是将自注意力机制与精心设计的动作和点云嵌入模块相结合,显著提高了动作质量。为了促进准确的动作捕捉,我们开发了一个一次性骨骼校准模型,能够从单帧点云中预测用户骨骼偏移。此外,我们引入了一种新颖的数据增强技术,利用 LiDAR 模拟器来增强全局根轨迹,以提高环境理解能力。为了证明我们方法的有效性,我们将 ELMO 与基于图像和基于点云的动作捕捉领域的最新方法进行了比较。我们还进行了消融研究,以验证我们的设计原则。ELMO 的快速推理时间使其非常适合实时应用,例如我们的演示视频中展示的实时流和交互式游戏场景。此外,我们贡献了一个高质量的 LiDAR-mocap 同步数据集,包含 20 个不同主题执行一系列动作,可作为未来研究的宝贵资源。数据集和评估代码可在 {\blue \url{https://movin3d.github.io/ELMO_SIGASIA2024/}} 获取。
发布时间: 10/10/2024
查看原文
作者: Qingxiu Dong, Li Dong, Xingxing Zhang, Zhifang Sui, Furu Wei
通过与人类偏好的对齐,大型语言模型 (LLM) 在生成诚实、无害和有帮助的响应方面取得了显著进展。然而,收集高质量偏好数据是一个资源密集型且需要创造力的过程,尤其是在持续改进 LLM 方面。我们引入了 SynPO,这是一种自增强范式,利用合成偏好数据进行模型对齐。SynPO 采用了一种迭代机制,其中一个自提示生成器创建多样化的提示,一个响应改进器逐步改进模型响应。这种方法训练 LLM 自主学习其自身输出的生成奖励,并消除了对大规模提示注释和人类偏好的需求。经过四次 SynPO 迭代后,Llama3-8B 和 Mistral-7B 在指令遵循能力方面显示出显著增强,在 AlpacaEval 2.0 和 ArenaHard 上实现了超过 22.1% 的胜率提升。同时,SynPO 提高了 LLM 在各种任务上的总体性能,在公认的 Open LLM 排行榜上平均得分提高了 3.2 到 5.0 分。
发布时间: 10/10/2024
查看原文
在传统的增强算法中,对误分类训练样本的关注强调了它们在学习过程中的重要性,因为它们难以学习。虽然在 AdaBoost 框架中使用标准支持向量机 (SVM) 作为弱学习器可以通过专注于错误样本来提高模型性能,但这会带来巨大的挑战。具体来说,SVM 以其稳定性和鲁棒性为特征,可能需要去稳定化才能适应增强范式,这反过来又会因为依赖于先前迭代的加权结果而限制性能。为了解决这些挑战,我们提出了支持向量增强机 (SVBM),它将一种新颖的子采样过程与 SVM 算法和残差连接技术相结合。这种方法通过考虑当前模型的预测和先前轮次的输出来更新样本权重,从而实现有效的稀疏性控制。SVBM 框架增强了形成复杂决策边界的能力,从而提高了分类性能。SVBM 的 MATLAB 源代码可在 https://github.com/junbolian/SVBM 访问。
发布时间: 10/10/2024
查看原文
作者: Lijie Hu, Tianhao Huang, Lu Yu, Wanyu Lin, Tianhang Zheng, Di Wang
目前,注意力机制在图神经网络(GNNs)中,例如图注意力网络(GATs)和图Transformer(GTs),越来越受到关注。这不仅得益于它们在性能方面取得的显著提升,还因为它们能够为模型行为提供更清晰的解释,而模型行为通常被认为是难以理解的。然而,基于注意力的GNNs在训练和测试阶段都表现出解释性方面的稳定性问题,这包括在训练和测试阶段受到各种扰动源的影响,例如额外的边或节点。在本文中,我们通过引入一个名为“忠实图注意力解释”(FGAI)的新概念来解决这个问题。具体来说,FGAI在解释和最终输出分布的稳定性和敏感性方面具有四个关键特性。基于这一概念,我们提出了一种有效的获取FGAI的方法,它可以被视为对规范的基于注意力的GNNs的特定修改。为了验证我们提出的解决方案,我们引入了两个专门用于评估图解释的新指标。实验结果表明,FGAI在各种形式的扰动和随机性下表现出优越的稳定性并保留了注意力的可解释性,这使得FGAI成为一个更加忠实和可靠的解释工具。
发布时间: 10/10/2024
查看原文
作者: Huanxi Liu, Jiaqi Liao, Dawei Feng, Kele Xu, Huaimin Wang
大型语言模型 (LLM) 主要通过生成 API 请求来利用外部工具,以提高任务完成效率。API 请求生成的准确性决定了 LLM 完成任务的能力。 由于 LLM 本身存在幻觉,因此很难有效且准确地生成正确的 API 请求。 当前的研究使用基于提示的反馈来促进基于 LLM 的 API 请求生成。然而,现有方法缺乏事实信息,并且不够详细。 为了解决这些问题,我们提出了 AutoFeedback,这是一种基于 LLM 的框架,用于高效且准确地生成 API 请求,包含一个静态扫描组件 (SSC) 和一个动态分析组件 (DAC)。SSC 将 API 请求中检测到的错误作为伪事实纳入反馈,丰富了事实信息。DAC 从 API 文档中检索信息,提高了反馈的详细程度。 基于这两个组件,AutoFeedback 在 LLM 生成 API 请求的过程中实现了两个反馈循环。 大量的实验表明,它显著提高了 API 请求生成的准确性,并降低了交互成本。AutoFeedback 在真实世界 API 数据集上实现了 100.00% 的准确率,并将与 GPT-3.5 Turbo 的交互成本降低了 23.44%,并将与 GPT-4 Turbo 的交互成本降低了 11.85%。
发布时间: 10/10/2024
查看原文
作者: Daniel Albert, Stephan Billinger
本研究提出将大型语言模型 (LLM) 作为行为策略研究的一种新方法,它补充了模拟和实验室实验,以加深我们对决策认知过程的理解。具体来说,我们利用大型语言模型 (LLM) 生成的代理,重现了行为策略中的人类实验室实验,并研究了 LLM 代理与观察到的人类行为的比较。我们的结果表明,LLM 代理有效地再现了与人类相当的搜索行为和决策。扩展我们的实验,我们分析了 LLM 代理的模拟“思想”,发现更具前瞻性的思想与偏好利用而非探索以最大化财富相关。我们展示了这种新方法如何在行为策略研究中得到利用,并解决其局限性。
发布时间: 10/10/2024
查看原文
作者: Avik Pal, Max van Spengler, Guido Maria D'Amely di Melendugno, Alessandro Flaborea, Fabio Galasso, Pascal Mettes
图像-文本表示学习是视觉-语言模型的基石,其中图像和文本描述对在共享嵌入空间中进行对比对齐。由于视觉和文本概念天生具有层次结构,最近的研究表明双曲空间可以作为一种高潜力流形来学习视觉-语言表示,并具有强大的下游性能。在这项工作中,我们首次展示了如何通过超越单个图像-文本对来充分利用双曲嵌入的固有层次结构。我们提出了用于双曲视觉-语言模型的组合蕴含学习。其思想是,图像不仅由句子描述,而且本身也是多个目标框的组合,每个目标框都有自己的文本描述。这种信息可以通过从句子中提取名词并使用公开可用的局部接地模型来免费获取。我们展示了如何通过对比和蕴含目标来层次化地组织图像、图像框及其文本描述。对使用数百万图像-文本对训练的双曲视觉-语言模型的实证评估表明,所提出的组合学习方法优于传统的欧几里得 CLIP 学习以及最近的双曲替代方案,具有更好的零样本和检索泛化能力,以及明显更强的层次结构性能。
发布时间: 10/10/2024
查看原文
作者: Yajvan Ravan, Zhutian Yang, Tao Chen, Tom\'as Lozano-P\'erez, Leslie Pack Kaelbling
大型物体在长时间范围内(例如仓库中的手推车)的操作是可部署机器人系统的一项基本技能。大型物体需要移动操作,这涉及同时操作、导航和拖动物体移动。在许多现实世界的情况下,物体动力学极其复杂,例如办公椅(带有旋转底座和五个脚轮)与地面的相互作用。我们提出了一种分层算法,用于解决动力学部分未知的长时间范围机器人操作问题。我们观察到,基于扩散的行为克隆对于具有未知动力学的短时间范围问题非常有效,因此我们将问题分解为一个抽象的高级、避障运动规划问题,该问题会生成一个航路点序列。我们使用一个短时间范围、相对运动扩散策略来依次实现航路点。我们在 Spot 机器人上训练了移动操作策略,该机器人必须推拉办公椅。与在长时间范围演示中训练的扩散策略或假设刚性连接物体的运动规划相比,我们的分层操作策略表现始终更好,尤其是在时间范围增加时(成功率为 10 次运行中的 8 次(相对于 0 次和 5 次))。重要的是,我们的学习策略可以推广到新的布局、抓取方式、椅子和地板(会产生更多摩擦),无需任何进一步训练,这显示出对其他复杂移动操作问题的希望。项目页面:https://yravan.github.io/plannerorderedpolicy/
发布时间: 10/10/2024
查看原文
作者: Yingxu Wang, Siwei Liu, Mengzhu Wang, Shangsong Liang, Nan Yin
脉冲图网络(SGNs)凭借其解决图分类中能耗挑战的能力,吸引了研究人员和行业的广泛关注。然而,SGNs 仅对分布内数据有效,无法处理分布外数据。本文首先提出了 SGNs 中的领域自适应问题,并引入了一种名为度感知脉冲图领域自适应分类的新框架。所提出的 DeSGDA 通过三个方面来解决脉冲图领域自适应问题:节点度感知个性化脉冲表示、对抗性特征分布对齐和伪标签蒸馏。首先,我们引入了个性化脉冲表示方法来生成度相关的脉冲信号。具体来说,触发脉冲的阈值由节点度决定,这种个性化方法可以捕获更多用于分类的表达信息。然后,我们提出了图特征分布对齐模块,该模块使用膜电位针对领域鉴别器进行对抗性训练。这种对齐模块可以在分布不一致的情况下有效地保持高性能和低能耗。此外,我们提取了两个空间中的一致预测以创建可靠的伪标签,有效地利用未标记数据来提高图分类性能。在基准数据集上的大量实验验证了所提出的 DeSGDA 相比于竞争基线方法的优越性。
发布时间: 10/10/2024
查看原文
作者: Hieke Keuning, Isaac Alpizar-Chacon, Ioanna Lykourentzou, Lauren Beehler, Christian K\"oppe, Imke de Jong, Sergey Sosnovsky
对学生在教育中使用生成式人工智能 (GenAI) 的看法和观点进行调查是一个越来越受关注的话题。此类研究通常针对大型异质群体,且在某个时间点进行。然而,学生对 GenAI 工具的感知和使用方式可能取决于许多因素,包括他们的背景知识、对工具的熟悉程度以及他们所修课程的学习目标和政策。 在本研究中,我们探讨了学习计算机课程的学生如何在不同课程和项目中使用 GenAI 进行编程相关任务:包括学士和硕士课程、以学习编程为目标的课程、需要编程作为实现其他目标手段的课程以及编程可选但可以提高学习效率的课程。我们还对 GenAI 能力随时间变化的情况感兴趣,因为 GenAI 能力正在快速发展,用户对 GenAI 的采用率也越来越高。 我们在一家大型欧洲研究型大学对所有计算机专业的学生进行了三轮连续调查(2023 年秋季、2023 年冬季和 2024 年春季)。我们询问了他们在教育、伦理和就业前景方面的使用情况,并针对他们在当时所修课程中允许或不允许使用 GenAI 工具提出了具体问题。 我们收到了 264 份回复,并对这些回复进行了定量和定性分析,以了解学生如何在 59 门不同的计算机课程中使用 GenAI 工具,以及普通学生对这些工具的看法是否会随着时间的推移而改变。我们的研究为如何区分不同课程中 GenAI 的使用以及如何使其与计算机课程的学习目标相一致这一新兴讨论提供了贡献。
发布时间: 10/10/2024
查看原文