arXiv:2502.07191v2 宣布类型: 新
摘要: 随着大规模语言模型(LLMs)的发展,解决复杂推理任务的注意力逐渐增加。推理时的计算方法(例如 Best-of-N、束搜索等)尤其宝贵,因为这些方法可以在不修改模型参数或需要额外训练的情况下增强推理性能。然而,这些技术在实现上存在挑战,而且由于计算复杂性和在不同任务上的不同有效性,大多数现有的方法仍然处于概念验证阶段,实际应用有限。在本文中,我们研究并基准测试了多种不同复杂度推理任务的推理时计算策略。由于大多数当前方法依赖于提案-验证流水线,即首先生成候选解决方案(例如推理解决方案),然后根据奖励信号(例如 RLHF 奖励、过程奖励)选择最佳解决方案,我们的研究重点在于优化候选解决方案生成(例如指令提示、温度和 top-p 等超参数)以及奖励机制(例如自我评估、奖励类型)。通过在各种类型模型(例如 Llama、Qwen 和 Mistral 家族的各种大小模型)上进行广泛的实验(超过 20,000 个 A100-80G GPU 小时,超过 1,000 个实验),我们的消除实验表明,之前被忽视的策略可以显著提升性能(例如,调整温度可以将推理任务性能提升高达 5%)。此外,我们通过系统地评估六种代表性方法在八种推理任务上的表现,确立了推理时计算的标准基准。这些发现为未来的研究奠定了更坚实的基础。代码可在 https://github.com/usail-hkust/benchmark_inference_time_computation_LL 获取。
arXiv:2502.06975v1 公告类型: 新
摘要:随着大型语言模型(LLMs)从文本补全工具演变为在动态环境中运作的全面运行代理,它们必须解决持续学习和保留长期知识的挑战。许多生物系统通过使用情景记忆来解决这些挑战,情景记忆支持单次学习特定实例的上下文。受到这一启发,我们提出了一种情景记忆框架,该框架围绕情景记忆的五个关键属性,这些属性支持适应性和上下文敏感的行为。尽管已有诸多研究初步涵盖了这些属性,本文认为现在是明确、整合地关注情景记忆,以促进长期代理发展的时机。为此,我们概述了一条路线图,旨在将多种研究方向统一起来,在支持情景记忆的五个属性方面促进更有效的长期LLM代理的发展。
arXiv:2502.06348v2 宣告类型: replace-cross
摘要:去中心化金融(DeFi)应用程序依赖于准确的价格预言机来确保安全交易,但这些预言机极易受到操控,使攻击者能够利用智能合约中的漏洞进行不公正的资产估值和金融获利。检测这类操控过去通常依赖于经验丰富的专家的 manually 努力,带来了显著的挑战。在这篇论文中,我们提出了一种新的基于LLM的框架,通过利用不同LLM模型(LLMs)的优势来自动化价格预言机操控的检测。该方法始于领域特定知识的提取,其中一种LLM模型从顶级学术论文中合成出关于价格预言机漏洞的精确见解,消除了开发者或审计员需要深厚专业知识的需求。这种知识构成了第二种LLM模型生成结构化、上下文感知的思维链提示的基础,这些提示指导第三种LLM模型准确识别智能合约中的操控模式。我们通过实验验证了该框架的有效性,实验对象是从2021年至2023年的46个实际DeFi攻击或项目中的60个已知漏洞。由AiRacleX识别的最佳LLM组合(Haiku-Haiku-4o-mini)在召回率上显示出了2.58倍的提高(0.667 对比 0.259),同时保持与最先进的工具GPTScan相当的精确度。此外,我们的框架展示了用开源替代品替换商业模型的可行性,从而增强开发人员的隐私和安全性。
arXiv:2502.06314v2 通告类型: replace-cross
摘要: 从图像的可见部分预测被遮掩的部分是一种强大的自监督方法,用于视觉表示学习。然而,随机遮掩像素片段的常见做法会表现出某些失败模式,这会阻碍学习下游任务所需的意义深远的高层特征。我们提出了一种替代的遮掩策略,该策略在适合的数据变换上操作,而不是在原始像素上。具体来说,我们执行主成分分析,然后随机遮掩一部分组件,这些组件占数据方差的固定比例。然后,学习任务是根据可见部分重建被遮掩的组件。与像素的局部片段相比,图像的主成分包含更多的全局信息。因此,我们认为从可见组件预测被遮掩的组件涉及更多的高层特征,从而使我们的遮掩策略能够提取更有用的表示。我们的实证结果证明了这一点,显示了相比像素遮掩,组件遮掩在图像分类性能上有所提高。因此,我们的方法构成了传统遮掩图像建模方法的简单且稳健的数据驱动替代方法。
arXiv:2502.06136v2 宣告类型: replace-cross
摘要: 图神经网络(GNNs)已成为学习图形结构数据表示的强大工具。除了实值GNNs,四元数GNNs在处理图形结构数据的任务上也表现出色。为了减少能耗,在保持与原有大小GNNs相当的准确性的同时,我们缩减了模型规模。本文引入了四元数消息传递神经网络(QMPNNs)框架,该框架利用四元数空间计算节点表示。我们的方法提供了一种四分之一原始参数量的一般可推广方法,将四元数表示融入到GNN架构中。此外,我们提出了图彩票(Graph Lottery Tickets)的新视角,重新定义了其在GNNs和QMPNNs上下文中的适用性。我们特别致力于从GNNs的子网络中找到一种初始彩票,能够在训练后达到与原GNN相当的性能。从而进一步减少可训练的模型参数。为了验证我们提出的QMPNN框架和LTH在GNNs和QMPNNs中的有效性,我们在三个基本的图基任务(节点分类、链接预测和图分类)上的实际数据集上评估了其性能。
arXiv:2502.06097v2 通知类型: replace-cross
摘要:重新排序在现代多阶段推荐系统中发挥着关键作用,通过重新排列初始排名列表。由于组合搜索空间固有的挑战,目前一些研究采用评估器-生成器范式,生成器生成可行序列,评估器根据估计的列表效用选择最佳序列。然而,这些方法仍然面临两个问题。首先,由于评估器和生成器之间的目标不一致问题,生成器倾向于适应曝光分布的局部最优解,而不是组合空间优化。其次,一项项生成目标项目的策略难以实现最优解,因为它忽略了后续项目的相关信息。
为了解决这些问题,我们提出了一种用于生成重新排序的利用邻接列表模型(NLGR),旨在在组合空间中提高生成器的性能。NLGR 遵循评估器-生成器范式,并改进了生成器的训练和生成方法。具体来说,我们使用组合空间中的邻接列表来增强训练过程,使生成器能够感知相对得分并找到优化方向。此外,我们提出了一种新的基于采样的非自回归生成方法,允许生成器从当前列表灵活跳转到任何邻接列表。在公共和工业数据集上的广泛实验验证了 NLGR 的有效性,并已在美团外卖平台成功部署。
arXiv:2502.05749v2 宣传类型: 替换交叉
摘要:最近在扩散桥模型方面的进展利用了Doob的 $h$-变换来在分布之间建立固定的端点,展示了在图像转换和修复任务中的有希望的结果。然而,这些方法经常生成模糊或过度平滑的图像细节,并缺乏全面的理论基础来解释这些缺点。为了解决这些限制,我们提出了一种基于随机最优控制(SOC)的统一框架UniDB。UniDB通过SOC为基础的优化来制定问题,并推导出最优控制器的闭式解,从而统一并泛化现有的扩散桥模型。我们证明,使用Doob的 $h$-变换的现有扩散桥模型是我们框架的特殊情况,当SOC成本函数中的终端惩罚系数趋向无穷大时,这种模型会浮现出来。通过引入可调整的终端惩罚系数,UniDB 实现了控制成本和终端惩罚之间的最优平衡,显著改善了细节保真度和输出质量。值得注意的是,UniDB 平滑地与现有的扩散桥模型集成,只需要少量的代码修改。广泛的实验跨越了多种图像修复任务,验证了所提出框架的优越性和适应性。我们的代码可在 https://github.com/UniDB-SOC/UniDB/ 获取。
arXiv:2502.05670v2 通知类型: replace-cross
摘要:尽管英语句子在单词顺序上通常不易变,但成分的顺序通常表现出更大的变化性。一个 prominent 理论提出了这样的观点:成分的顺序直接与成分的权重相关:成分长度或复杂度的一种度量。这类理论在自然语言处理(NLP)的背景下是有趣的,因为虽然最近在 NLP 领域的进步使得大型语言模型(LLMs)的表现取得了显著提升,但仍不清楚这些模型是如何处理语言的,以及它们与人类语言处理的对比情况。特别是,关于大型语言模型在成分移动方面是否表现出相同模式的问题仍然是一个悬而未决的问题,这可能为现有的理论提供洞察,即在人类语言中这种转换何时以及如何发生。我们比较了具有不同属性的多种大型语言模型,以评估它们在四种类型的成分移动(重 NP 移动、助动词移动、及物动词转换和多个 PP 结构)上的总体性能。尽管在助动词移动方面表现意外,但大型语言模型在成分顺序方面的表现普遍符合人类的偏好。
arXiv:2502.05485v2 宣告类型: replace-cross
摘要:大型基础模型在视觉和语言方面对复杂问题展示了强大的开放世界泛化能力,但在机器人领域尚未实现类似的泛化水平。一个基本挑战是没有足够的机器人数据,这些数据通常通过昂贵的在机器人上操作获得。一种有前景的解决方法是利用更便宜的跨域数据,如无动作的视频、手绘草图或仿真数据。在本文中,我们提出分层视觉-语言-动作(VLA)模型在利用跨域数据方面比直接微调视觉-语言模型(VLMs)来预测动作的标准单一型VLA模型更有效。特别是在这个研究中,我们探讨了一类分层VLA模型,其中高层次的VLM被微调以生成一个粗略的2D路径,该路径表示给定RGB图像和任务描述的所需机器人末端执行器轨迹。然后,中间的2D路径预测作为指导传递给低层次、3D感知的控制策略,该策略能够进行精确操作。这样做减轻了高层次VLM在细粒度动作预测方面的负担,同时减少了低层次策略对复杂任务级推理的负担。我们表明,通过分层设计,高层次VLM可以在显著的跨域差距之间进行迁移,包括在体现、动力学、视觉外观和任务语义等方面的差异。在实地机器人的实验中,我们观察到在七个不同泛化轴上,与OpenVLA相比,成功率平均提高了20%,相对改进达到50%。视觉结果可在以下网址查看:https://hamster-robot.github.io
arXiv:2502.05407v2 Announce Type: replace-cross
摘要:深层网络的成功主要归因于其在表示空间中捕捉潜在特征的能力。在本文中,我们研究了通过代理(如大型语言模型(LLM))的反馈,特别是相对的\textit{三元比较},是否可以有效地检索到模型中学习到的特征。这些特征可能代表各种构建块,包括LLM中的字典或马哈拉诺比斯距离协方差矩阵的组成部分。我们分析了在稀疏设置下学习特征矩阵的反馈复杂性。我们的结果在代理可以构建激活的情况下,建立了紧密的边界,并在代理的反馈仅限于分布信息的情况下,在稀疏场景下展示了强大的上界。我们通过两个不同的应用领域的实验验证了我们的理论发现:从递归特征机训练的模型中恢复特征,以及从大型语言模型训练的稀疏自编码器中提取字典。