arXiv 论文列表

作者: Huanran Li, Manh Nguyen, Daniel Pimentel-Alarc\'on

对比学习已成为深度学习中的一种强大方法，通过对比来自不同分布的样本，在学习有效表示方面表现出色。然而，神经坍缩，即嵌入收敛到一个低维空间，是一个重大的挑战，尤其是在半监督和自监督设置中。在本文中，我们首先从理论上分析了大学习率对仅依赖余弦相似度度量的对比损失的影响，并推导出一个理论界限来减轻这种坍缩。{基于这些见解，我们提出了 CLOP，一种新颖的半监督损失函数，旨在通过促进类嵌入之间形成正交线性子空间来防止神经坍缩。}与之前强制执行单纯形 ETF 结构的方法不同，CLOP 专注于子空间分离，从而导致更具区分度的嵌入。通过对真实和合成数据集的大量实验，我们证明了 CLOP 增强了性能，在不同的学习率和批次大小下提供了更高的稳定性。

发布时间: 10/8/2024

查看原文

深度融合：通过 Transformer 投影头在对比学习中捕捉依赖关系

作者: Huanran Li, Daniel Pimentel-Alarc\'on

对比学习 (CL) 已成为一种强大的方法，用于使用无标签数据训练特征提取模型。最近的研究表明，在主干网络之后加入一个线性投影头可以显著提高模型性能。在这项工作中，我们研究了在 CL 框架内使用 Transformer 模型作为投影头的可能性，旨在利用 Transformer 捕获嵌入之间长距离依赖关系的能力来进一步提高性能。我们的主要贡献有四点：首先，我们介绍了一种在投影头角色中使用 Transformer 的新颖应用，这是该领域的首创。其次，我们的实验揭示了一种引人注目的“深度融合”现象，其中注意力机制在更深层中逐渐捕获来自同一类的样本之间的正确关系依赖性。第三，我们提供了一个理论框架来解释和支持这种“深度融合”行为。最后，我们通过实验结果证明，与使用前馈层的现有方法相比，我们的模型取得了更好的性能。

发布时间: 10/8/2024

查看原文

SCANet：基于自校正组装网络的乐高拼装错误纠正

作者: Yuxuan Wan, Kaichen Zhou, jinhong Chen, Hao Dong

在机器人和3D视觉领域的自主装配中，确保装配正确性是一个重大的挑战。目前，诸如MEPNet之类的主要方法侧重于根据人工提供的图像来组装组件。然而，这些方法在需要长期规划的任务中往往无法取得令人满意的结果。同时，我们观察到集成自校正模块可以部分缓解此类问题。受此问题的启发，我们引入了单步装配错误校正任务，该任务涉及识别和纠正装配错误的组件。为了支持该领域的研究，我们发布了乐高错误校正装配数据集（LEGO-ECA），该数据集包含装配步骤的手动图像和装配失败的实例。此外，我们提出了自校正装配网络（SCANet），这是一种解决该任务的新方法。SCANet将组装的组件视为查询，确定它们在手动图像中的正确性，并在必要时提供校正。最后，我们利用SCANet来校正MEPNet的装配结果。实验结果表明，SCANet可以识别和纠正MEPNet的装配错误结果，从而显著提高装配的正确性。我们的代码和数据集可在https://github.com/Yaser-wyx/SCANet上获取。

发布时间: 10/8/2024

查看原文

MetaAligner：迈向语言模型的可泛化多目标对齐

作者: Kailai Yang, Zhiwei Liu, Qianqian Xie, Jimin Huang, Tianlin Zhang, Sophia Ananiadou

大型语言模型 (LLM) 的最新进展集中在通过多目标偏好对齐来与异质的人类期望和价值观保持一致。然而，现有方法依赖于策略模型参数，这需要对每个新的策略模型重复其对齐算法，成本很高，而且由于其静态对齐目标，它们无法扩展到看不见的目标。在这项工作中，我们提出了元目标对齐器 (MetaAligner)，这是第一个用于多目标偏好对齐的策略无关且可泛化的方法。MetaAligner 将多目标对齐建模为三个阶段：（1）动态目标重构算法重新组织传统的对齐数据集，以监督模型在不同目标之间执行灵活对齐；（2）条件弱到强校正范式将固定策略模型的弱输出对齐到更接近强输出，在相应的对齐目标中具有更高的偏好，从而能够在任何策略模型上进行即插即用推断，这显着降低了训练成本并促进了对闭源策略模型的对齐；（3）可泛化推断方法通过更新提示中的文本描述来灵活调整目标目标，从而促进对看不见的目标进行可泛化对齐。实验结果表明，MetaAligner 在 10 个最先进的策略模型上实现了多目标对齐的显著和平衡的改进，与之前的对齐方法相比，节省了高达 93.63% 的 GPU 训练时间。该模型还有效地对齐了看不见的目标，标志着朝着可泛化的多目标偏好对齐迈出的第一步。

发布时间: 10/8/2024

查看原文

图像处理的广义一致性轨迹模型

作者: Beomsu Kim, Jaemin Kim, Jeongsol Kim, Jong Chul Ye

扩散模型 (DMs) 在无条件生成以及图像编辑和修复等应用方面表现出色。DMs 的成功在于扩散的迭代性质：扩散将从噪声映射到数据的复杂过程分解为一系列简单的去噪任务。此外，我们能够通过在每个去噪步骤中注入指导项来对生成过程进行细粒度控制。然而，迭代过程也是计算密集型的，通常需要数十到数千次函数评估。虽然一致性轨迹模型 (CTMs) 能够在概率流 ODE (PFODE) 沿任何时间点之间进行遍历，并通过单个函数评估进行分数推断，但 CTMs 仅允许从高斯噪声到数据的转换。这项工作旨在通过提出广义 CTMs (GCTMs) 来释放 CTMs 的全部潜力，GCTMs 通过 ODEs 在任意分布之间进行转换。我们讨论了 GCTMs 的设计空间，并展示了它们在各种图像操作任务中的有效性，例如图像到图像的转换、修复和编辑。

发布时间: 10/8/2024

查看原文

HateCOT：一个基于大型语言模型的，用于泛化攻击性语言检测的解释增强数据集

作者: Huy Nghiem, Hal Daum\'e III

社交媒体的广泛使用要求可靠高效地检测攻击性内容，以减轻其有害影响。尽管先进的模型在单个数据集上表现良好，但由于对“攻击性内容”的定义和标注各不相同，它们往往难以泛化。本文介绍了 HateCOT，一个包含超过 52,000 个样本的英语数据集，这些样本来自不同的来源，并包含由 GPT-3.5Turbo 生成的解释，并经过人工整理。我们证明了在 HateCOT 上进行预训练显着提高了开源大型语言模型在三个基准数据集上的性能，这些数据集用于在零样本和少样本设置下检测攻击性内容，尽管存在领域和任务差异。此外，HateCOT 促进了大型语言模型在数据有限的情况下进行有效的 K-shot 微调，并提高了其解释的质量，这一点得到了我们的人工评估的证实。

发布时间: 10/8/2024

查看原文

具有不确定性和风险意识的部分可观测任务与运动规划

作者: Aidan Curtis, George Matheos, Nishad Gothoskar, Vikash Mansinghka, Joshua Tenenbaum, Tom\'as Lozano-P\'erez, Leslie Pack Kaelbling

集成任务和运动规划 (TAMP) 已被证明是解决可泛化长时域机器人操作和导航问题的宝贵方法。然而，典型的 TAMP 问题公式假设完全可观察性和确定性动作效果。这些假设限制了规划器收集信息和做出风险意识决策的能力。我们提出了一种具有不确定性和风险意识的 TAMP (TAMPURA) 策略，该策略能够有效地解决具有初始状态和动作结果不确定性的长时域规划问题，包括需要信息收集和避免不良和不可逆结果的问题。我们的规划器在抽象任务级别和连续控制器级别都进行不确定性推理。给定一组在原始动作空间中运行的闭环目标条件控制器，以及对其先决条件和潜在能力的描述，我们学习一个可以有效解决的高级抽象，然后将其细化为连续动作以执行。我们在几个机器人问题上展示了我们的方法，其中不确定性是一个关键因素，并表明在这些问题中进行不确定性推理优于先前提出的确定化规划、直接搜索和强化学习策略。最后，我们使用概率感知的最新进展，在两个现实世界的机器人问题上展示了我们的规划器。

发布时间: 10/8/2024

查看原文

赋予交互式机器人动态人格：蒙面动画社交运动学 (MASK)

作者: Jeongeun Park, Taemoon Jeong, Hyeonseong Kim, Taehyun Byun, Seungyoon Shin, Keunjun Choi, Jaewoon Kwon, Taeyoon Lee, Matthew Pan, Sungjoon Choi

本文介绍了一种创新的交互式机器人系统的设计与开发，该系统利用类似角色的人物形象来增强观众参与度。在基于人物驱动的对话代理的基础上，这项工作将代理的应用扩展到物理领域，使用机器人来提供更具吸引力和交互性的体验。所提出的系统名为“伪装动画社交运动学”（MASK），它利用一个拟人机器人与客人进行非语言互动，包括面部表情和手势。基于有限状态机结构的行为生成系统有效地调节机器人行为，以传达不同的角色形象。MASK 框架集成了感知引擎、行为选择引擎和全面的动作库，以实现实时、动态的交互，在行为设计中需要最少的人工干预。在用户主题研究中，我们考察了用户是否能够识别出在基于性格和基于电影角色的人物形象条件下的目标角色。最后，我们讨论了角色形象在交互式代理中的作用以及创建引人入胜的用户体验需要考虑的因素。

发布时间: 10/8/2024

查看原文

大型语言模型的概念知识编辑

作者: Xiaohan Wang, Shengyu Mao, Ningyu Zhang, Shumin Deng, Yunzhi Yao, Yue Shen, Lei Liang, Jinjie Gu, Huajun Chen

近年来，人们对大型语言模型（LLM）的知识编辑越来越感兴趣。现有的方法和评估仅探索了实例级别的编辑，而 LLM 是否具备修改概念的能力尚不清楚。本文率先对 LLM 的概念知识编辑进行了研究，构建了一个新的基准数据集 ConceptEdit，并建立了一套新的评估指标。实验结果表明，虽然现有的编辑方法可以在一定程度上有效地修改概念级别的定义，但它们也可能扭曲 LLM 中相关的实例知识，导致性能下降。我们预计这将激励人们进一步深入理解 LLM。我们的项目主页位于 https://zjunlp.github.io/project/ConceptEdit。

发布时间: 10/8/2024

查看原文

RFWave：用于音频波形重建的多频段整流流

作者: Peng Liu, Dongyang Dai, Zhiyong Wu

近年来，生成式模型的进步显著提升了从各种表示中重建音频波形的效率。虽然扩散模型擅长此任务，但由于它们在单个样本点级别进行操作以及需要大量采样步骤，因此存在延迟问题。在本研究中，我们介绍了 RFWave，这是一种最先进的多频带校正流方法，旨在从梅尔谱图或离散声学标记重建高保真音频波形。RFWave 独特地生成复杂的频谱图，并在帧级别进行操作，同时处理所有子频带以提高效率。利用校正流，其目标是直线传输轨迹，RFWave 只需 10 个采样步骤即可实现重建。我们的实证评估表明，RFWave 不仅提供了出色的重建质量，而且还提供了极高的计算效率，使音频生成速度比 GPU 上的实时速度快 160 倍。在线演示可在以下网址获取：https://rfwave-demo.github.io/rfwave/。

发布时间: 10/8/2024

查看原文