arXiv 论文列表

作者: Younggyo Seo, Pieter Abbeel

arXiv:2411.12155v3 公告类型: replace-cross 摘要：在强化学习（RL）中，我们训练一个值函数以理解执行单一动作所带来的长期后果。然而，在机器人领域，每个动作的价值可能是模糊的，因为机器人的动作通常是由执行多个小动作的综合结果。此外，机器人的训练数据通常由噪声轨迹组成，在这些轨迹中，每个动作都是噪声的，但是执行一系列动作会产生有意义的机器人运动。这进一步使得值函数难以理解个体动作的效果。为了应对这一挑战，我们引入了动作序列中的粗化-细化Q网络（CQN-AS），这是一种新颖的价值导向的RL算法，它学习一个批评网络，该网络输出一系列动作的Q值，即明确训练值函数以学习执行动作序列的后果。我们在BiGym、HumanoidBench和RLBench中53个具有稀疏和密集奖励的任务，以及有和没有演示任务上研究了该算法。我们发现，CQN-AS在人形控制任务中优于各种基准。

发布时间: 2/4/2025

查看原文

对比学习中表示错位的拆解：基于影响函数的方法

作者: Lijie Hu, Chenyang Ren, Huanyi Xie, Khouloud Saadi, Shu Yang, Zhen Tan, Jingfeng Zhang, Di Wang

arXiv:2411.11667v2 宣告类型: replace-cross 摘要：对比学习，通常应用于大型多模态模型中，经常依赖于来自多样且通常不可靠的来源的数据，这些来源可能包括对齐不良或标注错误的文字-图像配对。这通常会导致稳健性问题和幻想现象，最终导致性能下降。数据评估是检测和追踪这些对齐不良现象的有效方法。然而，现有的方法对于大型模型来说计算成本高昂。尽管计算效率高，经典的影晌函数对于对比学习模型来说仍然是不足的，因为它们最初是为点损失设计的。此外，对比学习涉及最小化正样本模态之间的距离同时最大化负样本模态之间的距离。这需要从两个角度评估样本的影响。为应对这些挑战，我们引入了扩展对比损失影响函数（ECIF），这是一种专为对比损失设计的影响函数。ECIF 考虑了正样本和负样本，并提供了对比学习模型的闭合形式近似，消除了重新训练的需要。在此基础上，我们开发了一系列算法，用于数据评估、对齐不良检测和误预测跟踪任务。实验结果表明，与传统基准方法相比，我们的ECIF能够更准确地评估数据影响和模型对齐，从而提高CLIP风格嵌入模型的透明性和可解释性。

发布时间: 2/4/2025

查看原文

价格、出价、价值：一个由机器学习驱动的组合拍卖方案统辖一切

作者: Ermis Soumalias, Jakob Heiss, Jakob Weissteiner, Sven Seuken

arXiv:2411.09355v2 宣告类型: replace-cross 摘要：我们研究了迭代组合拍卖（ICAs）的设计。在这个领域中的主要挑战是捆绑空间随着物品数量的增加呈指数增长。为了解决这一问题，最近的工作提出了基于机器学习（ML）的偏好 elicitation 算法，旨在仅从竞标者那里获取最关键的信息，以最大化效率。然而，尽管当前最先进的基于 ML 的算法通过价值查询来获取竞标者的偏好，实践中使用的 ICAs 通常通过需求查询来获取信息。在本文中，我们引入了一种新的 ML 算法，该算法可以证明利用价值查询和需求查询中的全部信息，并通过实验表明结合这两种查询类型可以在实践中实现显著更好的学习性能。基于这些见解，我们提出了 MLHCA，一种新的基于 ML 的拍卖系统，使用价值查询和需求查询。MLHCA 显著优于先前的最先进的方法，在效率损失上最多减少了 10 倍，同时减少了多达 58% 的查询次数。因此，MLHCA 实现了显著的效率提升，同时也减少了竞标者的认知负担，确立了在实用性和效率方面的新标杆。

发布时间: 2/4/2025

查看原文

增强链接预测的模糊图 attention 网络和动态负采样方法

作者: Jinming Xing, Ruilin Xing, Chang Xue, Dongwen Luo

arXiv:2411.07482v3 通知类型: replace-cross 摘要：联系预测对于理解复杂网络至关重要，但传统图神经网络（GNNs）往往依赖随机负样本采样，导致性能不佳。本文提出了一种新颖的方法——模糊图注意网络（FGAT），该方法结合了模糊粗糙集以实现动态负样本采样和增强节点特征聚合。模糊负样本采样（FNS）系统地选择高质量的负边，以提高训练效率。FGAT层结合了模糊粗糙集的原则，能够生成稳健且区分性强的节点表示。在两个研究合作网络上的实验表明，FGAT在利用模糊粗糙集的有效负样本采样和节点特征学习方面具有优越的链接预测准确性，优于最先进的基线方法。

发布时间: 2/4/2025

查看原文

DINO-WM：预训练视觉特征的世界模型实现零样本规划

作者: Gaoyue Zhou, Hengkai Pan, Yann LeCun, Lerrel Pinto

arXiv:2411.04983v2 Announce Type: replace-cross 摘要：根据控制行动预测未来结果的能力是物理推理的基础。然而，这些预测模型，通常称为世界模型，仍然很难学习，并且通常是为了特定任务的解决方案，在线策略学习而开发的。为了释放世界模型的真正潜力，我们argue认为它们应该1)能够在离线预先收集的轨迹上进行训练，2)支持测试时的行为优化，3)促进任务无关的推理。为此，我们提出了DINO世界模型（DINO-WM），这是一种新的方法，用于建模视觉动力学，而不重建视觉世界。DINO-WM 利用了用DINOv2预训练的空间补丁特征，使其能够通过预测未来补丁特征从离线的行为轨迹中学习。这使得DINO-WM能够在行动序列优化中实现观察目标，通过将目标特征作为预测目标来促进任务无关的规划。我们展示了DINO-WM能够在六个环境中实现零样本测试时的行为解决方案，而无需专家演示、奖励建模或预学习的逆模型，其在诸如任意配置的迷宫、不同形状物体的推操作以及多粒子场景等多种任务家族中都优于先前的最佳工作。

发布时间: 2/4/2025

查看原文

Dr. SoW: 强过弱的大语言模型的密度比率以减少偏好调整中的人工标注成本

作者: Guangxuan Xu, Kai Xu, Shivchander Sudalairaj, Hao Wang, Akash Srivastava

arXiv:2411.02481v3 宣布类型: replace-cross 摘要：偏好调整依赖于高质量的人类偏好数据，这些数据通常成本高且耗时。在本文中，我们介绍了Dr.SoW（强于弱的密度比），这是一种成本效益高的方法，通过利用现成的LLM进行偏好数据标注，从而消除对人工标注的依赖。Dr.SoW 使用一个更好地对齐和一个不太对齐的LLM之间的对数密度比作为奖励信号。我们在221种不同的LLM配对中评估了Dr.SoW，并实证地发现配对模型之间的性能差距与奖励信号的质量之间存在强烈的关联。这一见解为选择用于数据标注的LLM提供了实用的指导方针。此外，我们介绍了一个端到端的工作流程，该工作流程根据用户查询领域自定义奖励函数。不进行微调，该流程在领域特定评估中提高了准确性。使用一对Mistral-7B模型，Dr.SoW 实现了82.6的RewardBench得分，超过了同一模型类别中训练的最佳奖励函数，并且在安全性（91.0）和推理（88.0）领域展示了与最先进的模型（SoTA）相当的表现。此外，我们使用Dr.SoW标注的数据对Llama-3-8B-Instruct进行了偏好调整。我们的方法推动Llama-3-8B在ArenaHard上获得了37.4%（+15.1%）的胜率，在控制长度的AlpacaEval 2.0上获得了40.7%（+17.8%）的胜率。

发布时间: 2/4/2025

查看原文

学习优化问题的多个初始解

作者: Elad Sharony, Heng Yang, Tong Che, Marco Pavone, Shie Mannor, Peter Karkus

arXiv:2411.02158v2 通告类型: 交叉替换摘要：在严格运行时约束下，顺序解决相似的优化问题对于许多应用至关重要，例如机器人控制、自主驾驶和投资组合管理。在这些设置下，局部优化方法的表现依赖于初始解决方案：糟糕的初始化可能导致收敛速度慢或非最优解。为了解决这一挑战，我们提出了学习预测给定定义问题实例的参数的多种不同的初始解决方案。我们引入了两种利用多种初始解决方案的策略：（i）单优化器方法，其中使用选择函数选择最有前途的初始解；（ii）多优化器方法，其中可以并行运行多个优化器，每个优化器使用不同的初始解初始化，最终选择最优解。值得注意的是，通过包括默认初始化在预测的初始解决方案中，最终输出的成本保证不会高于默认初始化的成本。我们使用不同的优化器（DDP、MPPI 和 iLQR）在三个最优控制基准任务（pole cart、reacher 和自主驾驶）上验证了我们的方法，发现该方法在所有评估设置中均显示出显著且一致的改进，并证明该方法能有效扩展到所需初始解决方案的数量。代码可通过 MISO（https://github.com/EladSharony/miso）获取。

发布时间: 2/4/2025

查看原文

具有隐藏阶乘结构的学习

作者: Charles Arnal, Clement Berenfeld, Simon Rosenberg, Vivien Cabannes

arXiv:2411.01375v3 通告类型: replace-cross 摘要：在高维空间中进行统计学习极具挑战性，除非存在强大的底层数据结构。最近的基础模型进展表明，文本和图像数据中包含这些隐藏结构，这有助于缓解维度灾难。受非参数统计结果的启发，我们假设这一现象可用于部分解释将复杂任务分解为更简单的子任务。在本文中，我们提出了一种受控实验框架，以测试神经网络是否确实能利用这些“隐藏的因子结构”。我们发现它们确实利用这些潜在模式更有效地学习离散分布。我们还研究了我们的结构性假设与模型泛化能力之间的相互作用。

发布时间: 2/4/2025

查看原文

大规模成员推理：何时以及如何在大型语言模型上成功攻击

作者: Haritz Puerto, Martin Gubri, Sangdoo Yun, Seong Joon Oh

arXiv:2411.00154v2 宣告类型: 替换-跨字段摘要：成员推理攻击（MIA）尝试验证给定数据样本是否属于模型的训练集。随着大型语言模型（LLM）的迅速发展，MIA 近年来变得尤为重要。许多人担心使用受版权保护的材料进行训练，并呼吁寻找检测此类行为的方法。然而，最近的研究普遍认为现有的MIA方法在LLM上不起作用。即使它们似乎有效，通常也是因为 ill-designed 的实验设置，其中其他捷径特征使得“作弊”得以发生。在本文中，我们认为MIA仍然在LLM上有效，但仅当呈现多份文档进行测试时。我们构建了新的基准，用于连续测量MIA在数据样本从句子（n-克）到多文档集合（多个令牌片段）规模上的性能。为了验证在更大规模下当前MIA方法的有效性，我们将最近的一项数据集推理（DI）研究工作改编为二元成员检测任务，通过聚合段落级MIA特征，使MIA能够在文档和多文档集合级别上发挥作用。这个基准在预训练和微调的LLM上实现了首次成功的人工成员推理。

发布时间: 2/4/2025

查看原文

好的，坏的和丑陋的：AI质量披露在诈骗检测中的作用

作者: Haimanti Bhattacharya, Subhasish Dugar, Sanchaita Hazra, Bodhisattwa Prasad Majumder

arXiv:2410.23143v2 宣告类型: replace-cross 摘要: 我们研究了缺乏质量披露的低质量AI顾问如何在看似帮助人们检测谎言的同时，促进文本形式的谎言传播。在我们的实验中，参与者通过评估模仿了涉及客观真伪话题的欺骗性社交媒体交换的游戏节目转录来辨别真相和谎言。我们发现，在依赖缺乏披露的低质量顾问时，参与者的真伪识别率低于他们自己的能力，而在AI真正确效性被揭示后，这一情况得到了恢复。相反，高质量的顾问无论是否有披露都能增强真伪识别。我们发现，参与者对AI能力的预期助长了他们对这些不透明、低质量顾问的过度依赖。

发布时间: 2/4/2025

查看原文