arXiv:2409.19437v4 宣布类型: replace-cross
摘要:本文提出了一种新型终止标准,名为优势差距函数,适用于有限状态和行动马尔可夫决策过程(MDP)和强化学习(RL)。通过将这一优势差距函数引入步长规则的设计并推导出与最优策略的平稳状态分布无关的新线性收敛率,我们表明政策梯度方法可以在强多项式时间内解决MDP。据我们所知,这是首次为政策梯度方法建立如此强的收敛性质。此外,在随机环境下,仅能获得政策梯度的随机估计时,我们证明优势差距函数可为每个状态提供接近最优性的近似值,并在每个状态下表现出亚线性收敛率。在随机情况下,优势差距函数可以容易地进行估计,并且与可计算的政策值上界结合使用时,可以为政策梯度方法生成的解提供验证方法。因此,我们的发展为RL提供了有原则且可计算的最优性度量,而当前的做法往往依赖于算法间的比较或基线比较,缺乏最优性的证书。
arXiv:2409.16197v2 宣告类型: replace-cross
摘要: 许多研究工作已经为功能近似条件 bandits 开发了无遗憾算法,在这种算法中,上下文-动作对的平均奖励函数属于一个函数类。尽管有许多解决此问题的方法,其中一种越来越重要的方法是基于乐观原则的算法,如乐观最小二乘法。可以证明,这种算法的遗憾可以扩展为函数类的 eluder 维度(该统计量衡量函数类的复杂性)的平方根、函数类大小的对数和时间范围的乘积。不幸的是,即使每个时间点的奖励测量噪声方差发生变化且非常小,乐观最小二乘法算法的遗憾仍然与时间范围的平方根成比例。在这项工作中,我们在条件 bandits 中首次开发了算法,这些算法在功能近似的情况下能够满足遗憾边界,当方差未知时,它们的遗憾边界不仅与时间范围的平方根成比例,还与测量方差之和的平方根成比例。这些边界推广了在条件线性问题中推导二阶边界的技术。
arXiv:2409.12518v3 发布类型: replace-cross
摘要:我们提出了一种名为Hier-SLAM的语义3D高斯点云SLAM方法,该方法具有新颖的分层分类表示,能够实现准确的全局3D语义建图、扩展能力以及3D世界中的显式语义标签预测。随着环境复杂性的增加,语义SLAM系统中的参数使用量显著增加,这尤其使得场景理解变得极具挑战性和成本高昂。为了解决这一问题,我们引入了一种新的分层表示,它以紧凑的形式将语义信息编码到3D高斯点云中,利用大语言模型(LLMs)的功能。我们还引入了一种新的语义损失,用于通过层级间和跨层级优化来优化分层语义信息。此外,我们增强了整个SLAM系统,从而提高了跟踪和建图性能。我们的Hier-SLAM在建图和跟踪准确性方面优于现有的密集SLAM方法,同时实现了2倍的操作速度提升。此外,它在生成小合成场景的语义分割方面表现出竞争力,减少了存储和训练时间的需求。带有语义信息的渲染FPS达到了2000,不带语义信息时达到了3000。最值得注意的是,它展示了处理超过500个语义类别的复杂现实世界场景的能力,突显了其宝贵的扩展能力。
arXiv:2409.05806v2 通知类型: replace-cross
摘要:中文作为一种丰富深邃、复杂多样的语言系统,以其古诗、谚语、成语和其他文化构建为特色。然而,当前的大规模语言模型(LLMs)在这些专业领域存在局限性,突显了建立全面数据集的需求,这些数据集可以通过有针对性的训练优化来评估、持续更新和逐步提高这些文化背景下的语言能力。为填补这一空白,我们介绍了CKnowEdit,这是首个旨在纠正大规模语言模型中语言、事实和逻辑错误的中文知识编辑数据集。我们从多种来源收集了七类知识,包括古典文献、成语和百度贴吧的罗织吧内容,同时考虑了中文中固有的多义性、对比结构和逻辑结构。通过分析这个数据集,我们指出了当前大规模语言模型在掌握中文方面的挑战。此外,我们对最先进的知识编辑技术的评估揭示了进一步改进中文知识校正的机会。代码和数据集可在https://github.com/zjunlp/EasyEdit获取。
arXiv:2409.03685v2 通知类型: 替换-交叉
摘要:大型视觉-运动策略学习是一种开发通用操作系统的有希望的方法。然而,可以在多样化的载体、环境和观察模态中部署的策略仍然难以实现。在这项工作中,我们研究了如何利用世界大规模视觉数据的知识来解决通用操作系统的其中一个变化维度:观察视角。具体来说,我们研究了一种单幅图像新型视图合成模型,该模型通过给定单张输入图像,从不同的相机视角渲染同一场景的图像,来学习场景层面的3D感知先验。为了实现在多种类机器人数据中的应用,这些模型必须在零样本的情况下运作,在未见过的任务和环境中执行视图合成。我们在一种简单的数据增强方案中实证分析了视图合成模型,称为视图合成增强(VISTA),以了解它们从单视角演示数据中学习视角不变策略的能力。在评估我们方法训练出的策略在不同类型摄像机视角下的鲁棒性后,我们发现这些策略在模拟和实际操作任务中均优于基线。有关视频和附加可视化,请参阅https://s-tian.github.io/projects/vista。
arXiv:2409.01524v2 宣布类型: 重写-交叉
摘要: 自校正是一个新颖的方法,可以激发大型语言模型(LLMs)的潜在推理能力。它涉及到在LLMs解决推理问题时检测和纠正推理过程中的错误。然而,近期的研究并没有将自校正视为LLMs的自发性和固有能力,而是通过后生成、外部知识引入、多模型协作和技术类似的方法来实现这种纠正。在本文中,我们提出了一系列称为S$^3$c-Math的数学LLMs,具有自发步骤级自我纠正的数学推理能力。这种能力帮助LLMs识别它们正在进行的推理是否包含错误,并同时纠正这些错误,以生成更可靠的答案。我们提出了一种方法,采用步骤级采样的方法构建步骤级自我纠正数据,以实现这种能力。此外,我们实施了一种训练策略,使用上述构建的数据来赋予LLMs自发步骤级自我纠正的能力。我们的数据和方法在各种基础LLMs中得到了验证,并在GSM8K、MATH和其他数学基准上的评估中展示了显著的进步。据我们所知,我们是第一个引入LLMs在数学推理中自发步骤级自我纠正能力的研究。
arXiv:2408.04683v2 宣告类型: 替换交叉
摘要:神经代码模型(NCMs)广泛用于解决各种代码理解任务,如缺陷检测。然而,最近的多项研究表明,这些模型容易遭受后门攻击。被植入后门的NCMs在正常/干净的代码片段中可以正常工作,但在受到对手精心设计的触发器污染的代码片段上会表现出预想的行为,这构成了重大的安全威胁。因此,迫切需要有效的技术来悄悄检测和消除植入NCMs中的后门。
为了解决这个问题,本文创新地提出了一种用于安全代码理解的后门消除技术,称为EliBadCode。EliBadCode通过反转/逆向工程和遗忘后门触发器来消除NCMs中的后门。具体来说,EliBadCode首先基于特定编程语言的命名约定过滤模型词汇表,以减少触发器搜索空间和成本。然后,EliBadCode引入了一种针对样本特定触发器位置的识别方法,这可以减少非后门(对抗性)干扰对后续触发器反转的干扰,从而有效地高效生成反转后门触发器。后门触发器可以被视为后门(对抗性)干扰。随后,EliBadCode采用贪婪坐标梯度算法优化反转触发器,并设计了一种触发器锚定方法来净化反转触发器。最后,EliBadCode通过模型遗忘来消除后门。我们在三个关键安全代码理解任务中使用的多种NCMs中评估了EliBadCode在消除后门方面的有效性。结果表明,EliBadCode能够有效消除后门,同时对模型的正常功能影响最小。
arXiv:2407.18213v4 宣告类型: replace-cross
摘要: 语言模型表现出规模法则,在该法则中,增加模型和数据集的规模会可预测地减少负对数似然,从而解锁了一系列令人惊叹的能力。与此同时,即使是最有能力的系统目前仍然容易受到恶意输入的影响,如 Jailbreaks 和提示注入,尽管已经做出了努力使其更具鲁棒性。随着计算资源对攻击者和防御者来说都更加易得,哪一方会从规模扩大中获得更多的优势?我们通过跨越三个数量级参数量的语言模型的详细研究来尝试回答这个问题。从防御者的角度来看,我们发现,在没有其他干预措施的情况下,仅仅增加模型规模并不一致地提高鲁棒性。在对抗训练中,我们发现较大的模型在样本效率方面优于较小的模型,但在计算效率方面表现较差,并且往往能够更好地将防御措施推广到新的威胁模型。从攻击者的角度来看,我们发现,随着攻击计算资源的增加,攻击成功率会平稳且可靠地提高,不仅针对微调后的模型,也针对对抗训练后的模型。最后,我们展示了在研究的所有模型规模中,对抗训练计算资源翻倍仅迫使攻击者将其计算资源增加不到一倍以维持相同的成功率。然而,对抗训练在较大模型中变得越来越有效,这表明随着模型规模的增加,防御者最终可能会占据优势。这些结果强调了在讨论前沿模型的鲁棒性时采用规模视角的价值。
arXiv:2407.10490v3 宣传类型: replace-cross
摘要:学习动力学,即特定训练示例的学习如何影响模型对其他示例的预测,为我们提供了一种强大的工具来理解深度学习系统的行为。我们通过分析影响在不同潜在响应之间累积的方式的逐步分解,研究了在不同类型的微调期间大型语言模型的学习动力学。我们的框架允许对流行算法的指令微调和偏好微调训练中的一些有趣观察进行统一解释。特别是,我们提出了一种假设解释,说明为什么在微调后某些类型的幻觉会被加强,例如,模型可能会使用问题B响应中的短语或事实来回答问题A,或者在生成响应时继续保持重复类似的短语。我们还扩展了我们的框架,并指出了一个独特的“挤压效应”,以解释在离策直接偏好优化(DPO)中观察到的一个现象,即运行DPO过久会使期望的输出变得更不可能。该框架还揭示了政策内DPO及其变体的益处来源。分析不仅为理解LLM的微调提供了一个新的视角,而且还启发了一个简单有效的改进对齐性能的方法。
arXiv:2407.04903v3 通知类型: replace-cross
摘要:科学图表解释是基于先进视觉语言模型的AI驱动科学助手的核心能力。然而,现有的数据集和基准主要集中在简单图表或来自有限科学领域的其他相对简单的图表。为了解决这一差距,我们从同行评审的《自然通讯》文章中编制了一个全面的数据集,涵盖了72个科学领域,包括需要研究生水平专业知识来解释的复杂可视化,如方案图、显微照片和实验数据。我们在两个基准任务,即图表字幕生成和多项选择上对19个专有和开源模型进行了评估,并进行了人工专家注释。我们的分析揭示了模型在任务挑战和性能差距方面存在显著差异。除了作为基准,该数据集还为大规模训练提供了宝贵资源。通过对我们的任务特定数据进行微调,Qwen2-VL-7B在多项选择评估中的性能优于GPT-4o,甚至优于人类专家。此外,通过对交错的文章和图表数据的持续预训练,显著增强了模型在材料科学等下游任务中的表现。我们已发布了该数据集以支持进一步研究。