arXiv 论文列表

基于等变表示的对比学习

作者: Sifan Song, Jinfeng Wang, Qiaochu Zhao, Xiang Li, Dufan Wu, Angelos Stefanidis, Jionglong Su, S. Kevin Zhou, Quanzheng Li

不变对比学习 (ICL) 方法在各个领域都取得了令人印象深刻的性能。然而，在潜在空间中缺乏与失真（增强）相关信息的潜在空间表示，使得 ICL 在下游任务的训练效率和鲁棒性方面表现不佳。最近的研究表明，在对比学习 (CL) 中引入等变性可以提高整体性能。在本文中，我们重新审视了增强策略和等变性在提高 CL 效率方面的作用。我们提出了 CLeVER（通过等变表示的对比学习），这是一个新颖的等变对比学习框架，兼容各种主流 CL 主干模型的任意复杂度的增强策略。实验结果表明，CLeVER 有效地从实际自然图像中提取并整合了等变信息，从而提高了下游任务中基线模型的训练效率和鲁棒性，并取得了最先进 (SOTA) 的性能。此外，我们发现利用 CLeVER 提取的等变信息可以同时增强实验任务中的旋转不变性和敏感性，并在处理复杂增强时帮助稳定框架，特别是对于具有小型主干的模型。

发布时间: 10/11/2024

查看原文

自探索语言模型：用于在线对齐的主动偏好获取

作者: Shenao Zhang, Donghan Yu, Hiteshi Sharma, Han Zhong, Zhihan Liu, Ziyi Yang, Shuohang Wang, Hany Hassan, Zhaoran Wang

偏好优化，特别是通过来自人类反馈的强化学习 (RLHF)，在使大型语言模型 (LLM) 符合人类意图方面取得了重大成功。与使用固定数据集进行的离线对齐不同，从人类或 AI 对模型生成的在线反馈收集通常通过迭代过程导致更强大的奖励模型和更好地对齐的 LLM。然而，要获得全局准确的奖励模型，需要进行系统性探索，以生成跨越自然语言广阔空间的不同响应。仅从标准奖励最大化 LLM 中进行随机抽样不足以满足此要求。为了解决这个问题，我们提出了一种双层目标，它乐观地偏向于潜在的高奖励响应，以主动探索分布外区域。通过使用重新参数化的奖励函数解决内部级别问题，由此产生的算法，名为“自探索语言模型”(SELM)，消除了对单独 RM 的需求，并通过简单的目标迭代地更新 LLM。与“直接偏好优化”(DPO) 相比，SELM 目标减少了对看不见的推断的无差别偏爱，并提高了探索效率。我们的实验结果表明，当在 Zephyr-7B-SFT 和 Llama-3-8B-Instruct 模型上微调时，SELM 显着提高了指令遵循基准测试（如 MT-Bench 和 AlpacaEval 2.0）以及不同设置中各种标准学术基准测试的性能。我们的代码和模型可在 https://github.com/shenao-zhang/SELM 获取。

发布时间: 10/11/2024

查看原文

带熵调节的扩散演员-评论家

作者: Yinuo Wang, Likun Wang, Yuxuan Jiang, Wenjun Zou, Tong Liu, Xujie Song, Wenxuan Wang, Liming Xiao, Jiang Wu, Jingliang Duan, Shengbo Eben Li

强化学习 (RL) 在解决复杂的决策制定和控制任务方面已被证明非常有效。然而，在大多数传统的 RL 算法中，策略通常被参数化为具有学习均值和方差的对角高斯分布，这限制了它们获取复杂策略的能力。为了解决这个问题，我们提出了一种名为“带熵调节器的扩散演员-评论家 (DACER)” 的在线 RL 算法。该算法将扩散模型的逆过程概念化为一种新的策略函数，并利用扩散模型拟合多峰分布的能力，从而增强了策略的表示能力。由于扩散策略的分布缺乏解析表达式，因此无法解析地确定其熵。为了缓解这个问题，我们提出了一种利用高斯混合模型估计扩散策略熵的方法。基于估计的熵，我们可以学习一个参数 $\alpha$，该参数调节探索和利用的程度。参数 $\alpha$ 将用于自适应地调节添加到扩散模型输出的动作上的噪声的方差。在 MuJoCo 基准和多峰任务上的实验结果表明，DACER 算法在大多数 MuJoCo 控制任务中取得了最先进 (SOTA) 的性能，同时表现出更强的扩散策略表示能力。

发布时间: 10/11/2024

查看原文

EvGGS：一种用于基于事件的可泛化高斯散点图的协同学习框架

作者: Jiaxu Wang, Junhao He, Ziyi Zhang, Mingyuan Sun, Jingkai Sun, Renjing Xu

事件相机具有高动态范围和低延迟等优势，使其非常适合具有挑战性的光照条件和快速移动场景。然而，从原始事件流中重建 3D 场景很困难，因为事件数据稀疏且不携带绝对颜色信息。为了释放其在 3D 重建中的潜力，我们提出了第一个基于事件的可泛化 3D 重建框架，称为 EvGGS，该框架以前馈方式仅从事件输入重建场景为 3D 高斯分布，并且可以推广到未见过的案例而无需任何重新训练。该框架包括一个深度估计模块、一个强度重建模块和一个高斯回归模块。这些子模块以级联方式连接，我们使用设计的联合损失协同训练它们，使其相互促进。为了促进相关研究，我们构建了一个新的基于事件的 3D 数据集，其中包含各种材料物体以及灰度图像、深度图、相机姿态和轮廓的校准标签。实验表明，联合训练的模型明显优于单独训练的模型。我们的方法在重建质量、深度/强度预测方面优于所有基线，并具有令人满意的渲染速度。

发布时间: 10/11/2024

查看原文

元反思：利用过去反思学习语言代理指令

作者: Priyanshu Gupta, Shashank Kirtania, Ananya Singha, Sumit Gulwani, Arjun Radhakrishna, Sherry Shi, Gustavo Soares

大型语言模型（LLMs）的流行开启了语言代理的新时代，用于解决各种各样的任务。虽然当代前沿的LLMs 能够为合理的语言代理提供动力，但封闭的 API 模型使得在它们表现不佳的情况下难以改进。为了解决这个问题，最近的研究探索了使用自省和提示优化等技术来提高其性能的方法。不幸的是，像自省这样的技术只能在在线设置中使用，而当代的提示优化技术被设计和测试来处理简单的任务。为此，我们引入了 MetaReflection，这是一种新颖的离线强化学习技术，通过基于过去试验的经验学习来增强语义记忆，从而提高语言代理的性能。我们通过跨多个领域（包括复杂的逻辑推理、生物医学语义相似性、开放式世界问答和基础设施即代码中的漏洞威胁检测，涵盖不同的代理设计）的评估，证明了 MetaReflection 的有效性。MetaReflection 将语言代理的性能提高了 4% 到 16.82%，超过了原始的 GPT-4 基线，并且与现有的最先进的提示优化技术相当，同时需要更少的 LLM 调用。

发布时间: 10/11/2024

查看原文

局部自适应风险控制

作者: Matteo Zecchin, Osvaldo Simeone

自适应风险控制 (ARC) 是一种基于集合预测的在线校准策略，它提供最坏情况的确定性长期风险控制，以及统计边际覆盖保证。ARC 通过根据过去决策的反馈改变单个标量阈值来调整预测集的大小。在这项工作中，我们引入了局部自适应风险控制 (L-ARC)，这是一种在线校准方案，它针对从条件风险到边际风险的统计局部风险保证，同时保留 ARC 的最坏情况性能。L-ARC 在再生核希尔伯特空间 (RKHS) 中更新阈值函数，其中核决定了统计风险保证的局部化程度。理论结果突出了统计风险的局部化与收敛到长期风险目标的速度之间的权衡。得益于局部化，L-ARC 在实验中被证明可以生成具有不同数据子群体风险保证的预测集，显著提高了校准模型在图像分割和无线网络波束选择等任务中的公平性。

发布时间: 10/11/2024

查看原文

探究大型语言模型在数学推理中的组合缺陷

作者: Jun Zhao, Jingqi Tong, Yurong Mou, Ming Zhang, Qi Zhang, Xuanjing Huang

人类认知表现出系统性的组合性，即从有限的学习组件中生成无限种新组合的代数能力，这是理解和推理复杂逻辑的关键。在本研究中，我们调查了大型语言模型 (LLMs) 在数学推理中的组合性。具体来说，我们通过在 MATH 和 GSM8K 的问题描述中引入精心设计的逻辑陷阱，构建了一个新的数据集 \textsc{MathTrap}。由于逻辑缺陷问题在现实世界中很少见，因此这些问题对 LLMs 来说是“未曾见过”的情况。解决这些问题需要模型系统地组合 (1) 原问题中涉及的数学知识与 (2) 与引入的陷阱相关的知识。我们的实验表明，虽然 LLMs 拥有必要知识的两个组成部分，但它们并不会 **自发地** 将它们结合起来处理这些新情况。我们探索了几种缓解这种缺陷的方法，例如自然语言提示、少样本演示和微调。此外，我们测试了最近发布的 OpenAI o1 模型，发现类似人类的“慢思考”有助于提高 LLMs 的组合性。总的来说，系统性组合性仍然是大型语言模型面临的一个开放性挑战。

发布时间: 10/11/2024

查看原文

基于深度学习的加速磁共振胆胰管造影技术，无需全采样数据

作者: Jinho Kim, Marcel Dominik Nickel, Florian Knoll

本研究旨在利用基于深度学习 (DL) 的重建技术加速 3T 和 0.55T 磁共振胆胰管造影 (MRCP) 的采集。共有 35 名健康志愿者在 3T 和 0.55T 磁场强度下接受了传统的两倍加速 MRCP 扫描。我们利用两种不同的训练策略，即监督 (SV) 和自监督 (SSV)，使用 3T 获得的六倍欠采样数据训练 DL 重建。然后，我们评估了 DL 重建与标准技术（并行成像 (PI) 和压缩感知 (CS)）的对比，重点关注峰值信噪比 (PSNR) 和结构相似性 (SSIM) 作为指标。我们还测试了 DL 重建在预期加速场景中的表现，以反映现实世界的临床应用，并评估其对 0.55T MRCP 的适应性。两种 DL 重建都显著减少了平均采集时间，从 3T/0.55T 的 599/542 秒减少到 255/180 秒。在回顾性和预期欠采样场景中，DL 重建的 PSNR 和 SSIM 都高于 PI 和 CS。同时，DL 重建保留了欠采样数据的图像质量，包括清晰度和肝胆管的可见性。此外，两种 DL 方法都在 0.55T 生成了高质量的重建。总之，针对高度加速 MRCP 训练的 DL 重建能够在保持传统采集图像质量的同时，将 3T/0.55T 的采集时间缩短 2.4/3.0 倍。

发布时间: 10/11/2024

查看原文

探测未知：基于基础模型的动态标注统一可提示全景地图

作者: Mohamad Al Mdfaa, Raghad Salameh, Sergey Zagoruyko, Gonzalo Ferrer

在机器人和计算机视觉领域，由于对能够理解和与复杂环境交互的智能机器的需求不断增长，高效且准确的语义映射仍然是一个重大挑战。然而，传统的全景映射方法受到预定义语义类的限制，因此在处理新颖或不可预见的对象方面效率低下。为了应对这一限制，我们引入了统一可提示全景映射（UPPM）方法。UPPM 利用基础模型的最新进展，能够使用自然语言提示实时按需生成标签。通过将动态标签策略融入传统的全景映射技术，UPPM 在保持高水平地图重建性能的同时，在适应性和多功能性方面取得了显著改进。我们在真实世界和模拟数据集上演示了我们的方法。结果表明，UPPM 可以准确地重建场景和分割对象，同时通过自然语言交互生成丰富的语义标签。一系列消融实验验证了基于基础模型的标签优于固定标签集的优势。

发布时间: 10/11/2024

查看原文

神经算子学习磁流体动力学的局部物理规律

作者: Taeyoung Kim, Youngsoo Ha, Myungjoo Kang

磁流体动力学（MHD）在描述等离子体和导电流体的动力学方面发挥着至关重要的作用，对于理解恒星和星系的结构和演化以及核聚变中等离子体运动（通过理想 MHD 方程）至关重要。求解这些双曲型偏微分方程需要复杂的数值方法，由于结构复杂和成本高昂，带来了计算挑战。近年来，傅里叶神经算子（FNO）等神经算子作为传统数值分析的替代模型被引入。本研究探索了一种改进的通量傅里叶神经算子模型来近似理想 MHD 的数值通量，提供了一种新方法，该方法通过实现连续推断、样本分布之外的泛化以及比经典数值方案更快的计算速度，优于现有的神经算子模型。

发布时间: 10/11/2024

查看原文