arXiv:2502.18760v2 宣告类型: replace-cross
摘要:在自动驾驶领域,穿越非铺装地形面临着独特的挑战,从不规则的草地和泥土地面到意想不到的障碍物如灌木丛和水坑。在本工作中,我们提出了一种新型的学习导向局部规划器,通过仅使用单目摄像头就直接捕捉现实世界中的驾驶细节,以应对这些挑战。该规划器的关键特性在于其能够在各种地形类型的复杂非铺装环境中导航,并且具有快速学习的能力。通过利用最少的人类示范数据(5-10分钟),它能够迅速学会在多种非铺装道路条件下导航。该局部规划器显著减少了学习人类驾驶偏好的实际数据需求。这使得规划器能够在无需手动微调的情况下将学习到的行为应用到现实世界场景中,展示了非铺装自动驾驶技术的快速调整能力和适应能力。
arXiv:2502.15823v4 Announce Type: replace-cross
摘要:大型语言模型(LLMs)在推理方面表现出显著的改进,现有的许多基准模型,如o1和o3,要么完全要么部分解决了这些问题。然而,这些基准模型大多强调演绎推理,包括数学和编程任务,其中规则如数学公理或编程语法明确界定,基于这些规则,LLMs可以计划并应用这些规则以达到解决方案。相比之下,归纳推理,即从观察到的数据中推断出潜在规则,仍然较少被探索。这样的归纳过程是科学研究的核心,因为它们使研究人员能够从实证观察中提取一般原则。为了评估LLMs是否具备这种能力,我们引入了InductionBench,一个新基准,旨在评估LLMs的归纳推理能力。我们的实验结果表明,即使是最先进的模型也难以掌握函数子正规层次结构中最简单的复杂类,突显了当前LLMs在归纳推理能力方面的显著不足。相关代码和数据可在https://github.com/Wenyueh/inductive_reasoning_benchmark获取。
arXiv:2502.15507v3 通告类型: replace-cross
摘要:大型语言模型(LLMs)在使用证明助手如Lean验证形式定理方面显示出前景。然而,当前最先进的语言模型在预测证明中的下一步时遇到挣扎,导致研究人员使用不同的采样技术以提高LLMs的能力。我们观察到,LLM有能力预测正确的策略,但它在适当排序候选策略方面面临挑战,影响整体选择过程。为了克服这一障碍,我们使用激活转向来指导LLM的响应,以提高推理时的生成质量。我们的结果显示,激活转向提供了一种有前景的轻量级替代方案,用于增强LLMs的定理证明能力,特别是在资源受限的环境中特别有价值。
arXiv:2502.10725v3 宣告类型: replace-cross
摘要:基于Transformer的嵌入方法近年来在句子表示领域占据主导地位。尽管它们在NLP任务中,如语义文本相似性(STS)任务中取得了显著的性能,但它们的黑箱特性和依赖大量数据的训练方式引发了关于偏见、信任和安全性等方面的问题。已经做了许多努力来提高嵌入模型的可解释性,但这些问题并未从根本上解决。为了实现固有的可解释性,我们提出了一种纯粹的白盒且类人类的句子表示网络——PropNet。受到认知科学发现的启发,PropNet基于句子中包含的命题构建了一个层次化的网络结构。虽然实验表明,在STS任务中PropNet与最先进的(SOTA)嵌入模型相比存在显著差距,但案例研究揭示了显著的改进空间。此外,PropNet使我们能够分析和理解STS基准背后的认知过程。
arXiv:2502.09650v2 宣告类型: 替换-交叉
摘要:大型语言模型(LLMs)的对齐通常假设使用更多干净的数据会带来更好的结果,而忽视了模型容量与示例难度之间的匹配。挑战这一观点,我们提出了一个新的原则:偏好数据的难度各不相同,过于困难的示例会妨碍对齐,因为它们超出了模型的容量。通过系统的实验,我们通过三个关键发现验证了这一原则:(1)偏好示例的难度各不相同,如对齐运行中一致的学习顺序所证实;(2)过于困难的示例在四个LLM和两个数据集中显著降低了性能;(3)模型的容量决定了其处理困难示例的能力阈值,强调了数据选择与模型容量之间的重要关系。基于这一原则,我们介绍了选择性DPO,该方法过滤掉过于困难的示例。这一简单的调整在AlpacaEval 2基准测试中相对于DPO基线提高了9-16%的胜率,并抑制了一系列具有不同算法调整的DPO变体。这些结果揭示了将数据难度与模型容量对齐的重要性,为改善LLMs对齐策略提供了变革性的视角。代码可在 https://github.com/glorgao/SelectiveDPO 获取。
arXiv:2502.04405v2 宣告类型: replace-cross
摘要:脉冲大规模语言模型已在各种场景中展示了其作为LLM的良好替代方案。现有方法创建脉冲LLM的方法,即直接训练和ANN-SNN转换,通常会导致性能下降和相对较高的计算成本。为了解决这些问题,我们提出了一种新颖的快速ANN-SNN转换策略(FAS),该策略分两阶段将LLM转换为脉冲LLM。第一阶段采用全参数微调预训练模型,因此不需要从头开始的直接训练。第二阶段引入一种粗到细的校准方法,以减少转换错误并提高准确性。在不同规模的LLM的自然语言和视觉语言任务上的实验表明,FAS可以实现最先进的性能,同时具有显著降低的推理延迟和计算成本。值得注意的是,FAS只需八步就实现了比OPT-7B模型高3%的准确性,同时降低了96.63%的能源消耗。源代码可在https://github.com/lc783/FAS获取。
arXiv:2502.01391v2 宣告类型: replace-cross
摘要:准确检测交通异常对于有效的城市交通管理和缓解交通拥堵至关重要。我们使用结合图神经网络和长短期记忆网络的时空生成对抗网络(STGAN)框架,来捕捉交通数据中的复杂空间和时间依赖关系。我们将STGAN应用于2020年几个月内在瑞典哥特堡从42个交通摄像头上获取的实时、每分钟的观测数据。图像被处理以计算表示车辆密度的流量指标,该指标作为模型的输入。训练数据来自2020年4月至11月,验证则在2020年11月14日至23日的单独数据集上进行。我们的结果显示,该模型能够以高精度和低误报率有效地检测交通异常。检测到的异常包括摄像机信号中断、视觉伪影以及严重影响交通流量的极端天气状况。
arXiv:2501.12222v2 宣告类型: 替换-交叉
摘要:我们使用了我们开发的AI搜索引擎(InvDesFlow)对环境稳定的超导氢化物进行了广泛的研究。发现了一种具有Au-H八面体模式的立方结构Li$_2$AuH$_6$,被认为是候选材料。在进行热力学分析后,我们提供了一种通过已知的LiAu和LiH化合物在常压下合成该材料的可行路径。进一步的第一性原理计算表明,在常压下,Li$_2$AuH$_6$表现出较高的超导转变温度($T_c$)$\sim$ 140 K。H-1$s$电子强烈耦合到Au-H八面体振动模式以及Li原子的振动模式中,其中后者在之前的类似案例中未被认真考虑。因此,不同于以前寻找金属共价键以寻找高$T_c$超导体的说法,我们在这里强调那些具有强烈电子-声子耦合(EPC)的声子模式的重要性。我们建议可以通过将原子插入二元或三元氢化物中来引入更多具有强烈EPC的声子模式,这是一种在多组分化合物中寻找高$T_c$超导体的有效方法。
arXiv:2501.02982v2 宣告类型: 替换-交叉引用
摘要:与人类视觉相比,蝗虫视觉系统在仅依赖数千神经元(这些神经元通过少数几个神经中枢组织)的情况下,对快速和精确的碰撞检测表现出色。这种高效性使得它们成为开发人工碰撞检测系统的有吸引力的模型系统。具体来说,研究人员在蝗虫的视叶中识别出了选择性响应接近物体的神经元,称为视叶巨大运动检测器(LGMDs)。关于LGMD神经元的研究始于20世纪70年代初。最初,由于其大型尺寸,这些神经元被认为是对运动的检测器,但随着时间的推移,它们作为一种突起检测器的角色被认识到了。自那时以来,神经科学的进步、LGMD视觉神经回路的计算模型以及基于LGMD的机器人技术发展同步进行,每个领域都相互支持并驱动对方的发展。如今,随着对LGMD神经元的深入了解,基于LGMD的模型显著提高了地面和空中机器人的无碰撞导航能力。这篇综述从神经科学、计算建模和机器人学的角度,强调了LGMD研究的最新进展,并强调了一个生物学上合理的研究范式,其中神经科学的洞见指导实际应用,反过来验证并推进神经科学研究。由于广泛的研究支持和日益增长的应用需求,这一范式已达到成熟阶段,并展示了在不同神经科学领域研究中的灵活性,从而增强了我们对神经科学、计算建模和机器人学之间相互联系的理解。此外,这一范式还将照亮其他对运动敏感的神经元或神经回路的建模和机器人研究。
arXiv:2411.17058v2 通知类型: replace-cross
摘要:威胁建模是网络安全的重要组成部分,特别是在银行业等金融数据安全性至关重要的行业中。传统的威胁建模方法需要专家介入和手动操作,经常导致效率低下和人为错误。大型语言模型(LLMs)的出现为自动化这些过程提供了前景,提高了效率和效果。然而,这一转变并非一蹴而就,主要有三个主要挑战:(1)缺乏公开的、特定领域的数据集,(2)需要针对复杂的银行业系统架构进行定制的模型,以及(3)需要与NIST 800-53等合规标准相匹配的实时、自适应缓解策略。在本文中,我们介绍了ThreatModeling-LLM,这是一个新颖且可适应的框架,使用LLMs自动化银行业系统的威胁建模。ThreatModeling-LLM分三个阶段运行:1) 数据集创建,2) 响应工程和3) 模型微调。我们首先使用Microsoft威胁建模工具(TMT)生成基准数据集。接着,我们对预训练的LLMs应用Chain of Thought(CoT)和PROmpting优化(OPRO),以优化初始提示。最后,我们基于基准数据集和优化后的提示,使用低秩适应(LoRA)对预训练的LLMs进行微调,以提高预训练LLMs的威胁识别和缓解生成能力。