LLM2D

arXiv 论文列表

作者: Hikaru Shindo, Quentin Delfosse, Devendra Singh Dhami, Kristian Kersting
arXiv:2410.11689v2 宣告类型: 替换-交叉 摘要:人类能够结合符号推理和直觉反应。相比之下,强化学习策略通常被编码为不透明的系统(如神经网络)或依赖于预定义符号和规则的符号系统。这种分离的方法严重限制了智能体的能力,因为它们往往缺乏神经智能体所具备的灵活低级反应特性,或者缺乏符号智能体所具备的可解释推理能力。为了克服这一挑战,我们引入了BlendRL,这是一种结合了逻辑和神经政策的神经符号RL框架,能够和谐地将两种范式整合到使用混合策略的RL智能体中。我们实证展示了BlendRL智能体在标准 Atari 环境中优于纯神经和纯符号基线智能体,并展示了其对环境变化的鲁棒性。此外,我们分析了神经策略和符号策略之间的交互,展示了它们的混合使用如何帮助智能体克服彼此的局限性。
发布时间: 4/22/2025
查看原文
作者: Tong Ding, Wanhua Li, Zhongqi Miao, Hanspeter Pfister
arXiv:2410.11201v2 宣告类型: replace-cross 摘要: 提示学习已被证明在使视觉语言模型适应下游任务方面非常有效。然而,现有的方法通常仅通过附加可学习的提示标记和类别名称来获得文本特征,这未能充分利用类别名称中指示的丰富语境。为了解决这个问题,我们提出了属性提示学习的树(Tree of Attributes Prompt learning,TAP),该方法首先指示LLM生成每个类别具有“概念-属性-描述”结构的树,并然后通过视觉和文本提示标记学习层次结构。与现有方法仅通过一组无结构的描述来增加类别名称不同,我们的方法本质上是从LLM中提取与类名称相关的结构化知识图谱。此外,我们的方法引入了针对显式学习相应视觉属性的文本和视觉提示,有效地充当了领域专家。另外,基于类名称生成的一般性和多样性的描述可能在特定给定的图像中错误或缺失。为了应对这种不匹配,我们进一步引入了一个视觉条件池化模块来提取实例特定的文本特征。广泛的实验结果表明,我们的方法在零样本基准到新类的泛化、跨数据集迁移以及11个不同数据集上的少量样本分类方面均优于现有最先进的方法。代码可在 https://github.com/HHenryD/TAP 获取。
发布时间: 4/22/2025
查看原文
作者: Wenlong Deng, Yize Zhao, Vala Vakilian, Minghui Chen, Xiaoxiao Li, Christos Thrampoulidis
arXiv:2410.09344v2 声明类型: replace-cross 摘要:单独存储开源微调模型引入了冗余,并在利用多个模型的应用中增加了响应时间。逆参数剪枝(DPP),特别是 Yu 等人提出的随机删除和重新缩放(DARE)方法,通过在通常保持最小性能损失的情况下剪枝绝大多数逆参数——微调和预训练模型权重之间的差异——来解决这一问题。然而,当剪枝率或逆参数的幅度较大时,DARE 会失效。我们详细指出了这种失败的两个主要原因:(1)随着剪枝率增加,重新缩放因子过大,(2)逆参数的高平均值和方差。为了推动 DARE 的极限,我们引入了 DAREx(DARE the eXtreme),并提出了两项算法改进:(1)DAREx-q,一种重新缩放因子的修改,显著提高了高剪枝率下的性能(例如,在 COLA 和 SST2 上的编码器模型中超过 30%,在解码器模型中的提升更大),(2)DAREx-L2,它将 DARE 与 AdamR 结合,AdamR 是一种在微调过程中应用适当逆参数正则化的训练方法。我们还表明,DAREx-q 可以无缝结合传统的参数高效微调技术(如 LoRA),并促进结构化 DPP。此外,我们重新审视了在 DPP 中应用基于重要性的剪枝技术,表明当逆参数较大时,基于重要性的方法优于基于随机性的方法。通过这项全面的研究,我们为各种实际场景下选择最合适的 DPP 方法开发了一个流程。
发布时间: 4/22/2025
查看原文
arXiv:2410.09300v3 宣告类型:替换交叉 摘要:大型语言模型(LLMs)需要进行对齐,以便有效地和安全地遵循用户指令。这一过程需要为每个基础模型训练一个对齐版本,导致了大量的计算开销。在本工作中,我们提出了轻推(Nudging)算法,这是一种简单、即插即用、无需训练的算法,可以在推理时对任何基础模型进行对齐,只需使用一个较小的对齐模型。轻推法受到最近发现的启发,即对齐主要改变模型在一小部分风格标记(例如,话语标记)上的行为。我们发现,在生成这些标记时,基础模型会有显著更大的不确定度。基于这一见解,轻推使用一个较小的对齐模型来生成引导标记,在基础模型的不确定度较高时,指导基础模型在解码过程中的输出。我们对三种模型家族在多种开放指令任务上进行了评估。使用一个7至14倍较小的对齐模型对大型基础模型进行轻推,可以在零样本设置下达到与大型对齐模型相当,甚至有时超越的效果。通过在标记级别操作,轻推使得不同模型家族能够开箱即用地协作。例如,使用Llama-2-7b-chat对Gemma-2-27b进行轻推,在多种任务上表现优于Llama-2-70b-chat。总的来说,我们的工作提供了一种模块化且成本效益高的解决LLM对齐问题的方案。我们的项目网站:https://fywalter.github.io/nudging/。
发布时间: 4/22/2025
查看原文
作者: Gyuwan Kim, Yang Li, Evangelia Spiliopoulou, Jie Ma, Miguel Ballesteros, William Yang Wang
arXiv:2410.07582v2 宣告类型: 替换-交叉 摘要:大型语言模型的进步与它们训练数据的不透明性平行增长。成员推理攻击(MIA)旨在确定特定数据是否用于训练模型。它们为检测数据污染和确保遵守隐私和版权标准提供了有价值的见解。然而,对于LLMs的MIA具有挑战性,因为训练数据的规模巨大,而且文本中的成员身份本身具有固有的模糊性。此外,由于训练和测试数据分布通常未知,创建逼真的MIA评估基准具有困难。我们引入了EM-MIA,这是一种新型的成员推理方法,通过期望最大化算法迭代优化成员得分和前缀得分。我们的方法利用了这些得分可以互相提高的观察结果:成员得分有助于识别用于检测训练数据的有效前缀,而前缀得分有助于确定成员身份。因此,EM-MIA 在 WikiMIA 上实现了最先进的结果。为了实现全面的评估,我们引入了由 OLMo 资源构建的 OLMoMIA 基准,该基准通过调整训练和测试数据分布之间的重叠程度来控制任务难度。我们的实验表明,EM-MIA 能够在不同场景中保持稳健,同时也揭示了当前 MIA 方法在成员和非成员分布几乎相同时的基本局限性。
发布时间: 4/22/2025
查看原文
作者: Xinnan Dai, Haohao Qu, Yifen Shen, Bohang Zhang, Qihao Wen, Wenqi Fan, Dongsheng Li, Jiliang Tang, Caihua Shan
arXiv:2410.05298v2 宣告类型: replace-cross 摘要: 对大型语言模型(LLMs)在图相关任务上的能力和限制进行基准测试已成为越来越受欢迎和关键的研究领域。最近的研究表明,LLMs 在理解图结构和节点特征方面表现出初步的能力。然而,LLMs 在图模式挖掘方面的潜力尚待充分探索。这是诸如计算化学、生物学和社会网络分析等领域的关键组成部分。为解决这一问题,本工作引入了一个全面的基准测试,以评估LLMs在图模式任务上的能力。我们开发了一个基准测试,该测试可以评估LLMs是否能够基于术语描述或拓扑描述理解图模式。此外,我们的基准测试还测试了LLMs在数据中自主发现图模式的能力。该基准测试涵盖了合成和真实数据集以及多种模型,共有11项任务和7种模型。我们的实验框架设计得便于扩展,以适应新的模型和数据集。我们的研究发现如下:(1) LLMs在理解图模式方面具有初步的能力,O1-mini在大多数任务中表现最佳;(2) 调整输入数据的格式,使其与预训练期间获得的知识一致,可以提高性能;(3) LLMs所使用的方法可能与传统算法的方法不同。
发布时间: 4/22/2025
查看原文
作者: Gang Li, Wendi Yu, Yao Yao, Wei Tong, Yingbin Liang, Qihang Lin, Tianbao Yang
arXiv:2410.03955v4 宣布类型: replace-cross 摘要:在现实世界的应用中,学习驱动的系统经常通过迭代的模型开发来应对具有挑战性或新兴的任务,这涉及收集新数据、训练新模型和验证模型。这一持续的模型开发过程引发了显著的问题,即在获取新能力或改进现有能力时,可能会无意中失去旧模型的优良能力,这也被称为灾难性遗忘。虽然现有的持续学习旨在通过在先前任务和新任务之间权衡性能来减轻灾难性遗忘,以确保良好的平均性能,但在成本敏感的应用中,它往往无法满足要求,未能保存关键的既定能力会导致未预见的成本和风险,以及重新改善这些能力所需的大量支出。为了解决这一问题,我们要求学习系统确保新模型严格保留旧模型的重要能力的同时,提高目标任务的性能,我们将其称为模型开发安全性。为了确保模型开发安全性,我们提出了一种以保留为核心框架,并带有数据依赖性约束的方法,并研究如何持续开发预训练的CLIP模型,以获取或改进图像分类的能力。我们提出了一种高效且有理论保证的约束优化算法,并利用其见解对具有任务依赖性头的CLIP模型进行微调,以促进模型开发安全性。在自动驾驶和场景识别数据集上的实验验证了我们方法的有效性。
发布时间: 4/22/2025
查看原文
作者: Jente Vandersanden, Sascha Holl, Xingchang Huang, Gurprit Singh
arXiv:2410.01540v3 宣传类型: 替换交叉 摘要:经典的生成性扩散模型学习一个各向同性高斯去噪过程,对待所有空间区域均等处理,因此忽略了数据中可能有价值的结构信息。受到图像处理中广泛研究的各向异性扩散工作的启发,我们提出了一种新颖的保边缘扩散模型,该模型通过考虑混合噪声方案来推广现有的各向同性模型。特别地,我们引入了一种边缘感知噪声调度器,其在保边缘和各向同性高斯噪声之间变化。我们展示了我们的模型的生成过程更快地收敛到与目标分布更接近的结果。我们证明了该模型能够更好地学习数据集中的低至中频内容,这对表示形状和结构信息至关重要。我们的保边缘扩散过程在无条件图像生成任务中始终优于当前最先进的基线。尤其是在基于形状先验指导的生成任务中,如从笔画生成图像,该模型表现尤为稳健。我们提供了定性和定量结果(FID和CLIP得分),展示了两种任务中持续提高高达30%的表现。
发布时间: 4/22/2025
查看原文
arXiv:2409.15318v2 宣告类型: replace-cross 摘要:叠加,神经网络表示比神经元更多特征的能力,现在越来越被视为大型模型高效性的关键。本文探讨了在叠加中进行计算的理论基础,为可验证正确的显式算法设定了复杂性界限。 我们首次为在叠加中进行计算的神经网络设定了下界,表明对于包括排列和两两逻辑操作在内的广泛问题类别,计算 \(m'\) 个特征在叠加中需要至少 \(\Omega(\sqrt{m' \log m'})\) 个神经元和 \(\Omega(m' \log m')\) 个参数。这意味着叠加容量的第一个次指数上限:一个具有 \(n\) 个神经元的网络最多可以计算 \(\mathcal{O}(n^2 / \log n)\) 个特征。相反,我们提供了几乎最佳的构造性上限:像两两 AND 这样的逻辑操作可以使用 \(\mathcal{O}(\sqrt{m'} \log m')\) 个神经元和 \(\mathcal{O}(m' \log^2 m')\) 个参数来计算。因此,在计算在叠加中计算特征的复杂性(本文的主题)与仅表示特征所需的基于 Johnson-Lindenstrauss 引理的最小 \(\mathcal{O}(\log m')\) 个神经元之间存在指数级差距。 我们希望本文的结果能够为使用计算复杂性技术推动神经网络解释性研究开辟一条路径。
发布时间: 4/22/2025
查看原文
作者: Xiaotong Zhang, Dingcheng Huang, Kamal Youcef-Toumi
arXiv:2409.13998v2 通知类型: replace-cross 摘要:人类大脑具备有效聚焦于环境重要组成部分的能力,这增强了感知、学习、推理和决策能力。受这一认知机制的启发,我们引入了一个新的概念,称为人类与机器人协作(HRC)中的相关性。相关性是一种降维过程,结合了一个持续运行的感知模块,评估场景中的线索充分性,并应用一种灵活的公式和计算框架。在本文中,我们提出了一种增强的两环框架,将实时和异步处理集成在一起,以量化相关性并利用其提高人类与机器人协作(HRC)的安全性和效率。该两环框架集成了一个异步环,在这个环中利用LLM世界知识来量化相关性;以及一个实时环,基于相关性进行场景理解、人类意图预测和决策。通过相关性为基础的任务分配方法以及结合人类轨迹预测的运动生成和碰撞避免方法,HRC决策得到了增强。实验和模拟表明,我们对相关性的量化方法能够准确且稳健地预测人类目标和相关性,客观性预测的平均准确率达到0.90,相关性预测的准确率达到0.96。此外,与最先进的(SOTA)碰撞避免方法相比,我们的运动生成方法能够将碰撞案例减少63.76%,将碰撞帧减少44.74%。结合相关性,我们的框架和方法指导机器人如何最好地协助人类,并生成更加安全和高效的HRC动作。
发布时间: 4/22/2025
查看原文