arXiv:2504.02546v2 宣告类型: replace-cross
摘要:强化学习(RL)可以直接增强大型语言模型的推理能力,而无需大量依赖监督微调(SFT)。在本文中,我们重新审视了传统的策略梯度(PG)机制,并提出了一种简化的RL方法,称为组策略梯度(GPG)。与传统方法不同,GPG 直接优化原始的RL目标,因此无需使用代理损失函数。通过消除评论者和参考模型、避免KL散度约束,并解决优势和梯度估计偏差,我们的方法在训练过程中显著简化了与组相对策略优化(GRPO)相比的过程。在不依赖辅助技术或调整的情况下,我们的方法实现了优越的成绩。如图1所示,大量的实验不仅表明我们的方法减少了计算成本,而且在各种单模态和多模态任务中也始终优于GRPO。我们的代码可在 https://github.com/AMAP-ML/GPG 获取。
arXiv:2504.01797v2 宣布类型: replace-cross
摘要:近年来工业人工智能(AI)的进展正在通过驱动更智能的制造、预测性维护和智能决策来重塑产业。然而,现有方法往往主要侧重于算法和模型,而忽视了系统地集成领域知识、数据和模型以开发更具全面性和有效性的AI解决方案的重要性。因此,工业AI的有效开发和部署需要更全面和系统的办法。为了解决这一缺口,本文回顾了以往的研究,重新思考了工业AI的作用,并提出了一种统一的工业AI基础框架,包括三个核心模块:知识模块、数据模块和模型模块。这些模块有助于扩展和增强工业AI方法平台,支持各种工业应用。此外,还呈现了一个旋转机械诊断的案例研究,以展示所提框架的有效性,并突出了一些关于工业AI基础框架开发的未来方向。
arXiv:2504.01632v2 宣布类型: 交叉替换
摘要:深度神经网络(DNN)的稳健性在安全关键应用中是一个关键因素,特别是在复杂和动态环境中,局部破坏可能会出现。尽管之前的研究已经评估了语义分割(SS)模型在整体图像自然或对抗性破坏下的稳健性,但在局部破坏下的密集视觉模型的空间稳健性进行全面调查仍然未被充分探讨。本文通过引入专门的度量标准来填补这一空白,用于基准测试分割模型的空间稳健性,并提出了一种评估局部破坏影响的评估框架。此外,我们揭示了使用单一局部对抗性扰动表征最坏情况稳健性的固有复杂性。为了应对这一挑战,我们提出了一种针对特定区域应用对抗性扰动的知识区域感知多攻击分析方法,这种方法有助于更深入地理解模型在对抗性扰动下的稳健性。提出的度量标准和分析方法被用于评估14种分割模型在驾驶场景中的性能,揭示了局部破坏在自然和对抗性形式下的影响。结果表明,模型对这两种类型的威胁表现出不同的响应;例如,基于Transformer的分割模型对局部自然破坏表现出明显的稳健性,但对对抗性破坏非常脆弱,而基于CNN的模型则反之。因此,我们还通过集成模型克服了同时平衡对自然和对抗性局部破坏的稳健性这一挑战,从而实现了更全面的威胁覆盖和密集视觉任务的改进可靠性。
arXiv:2504.00638v2 Announce Type: replace-cross
摘要:机器学习模型对抗恶意攻击的准确性和鲁棒性受到训练数据质量、模型架构、训练过程和部署环境等多种因素的影响。近年来,训练集中重复数据,尤其是在语言模型中,引起了广泛关注。已有研究表明,去重能够提升语言模型的训练性能和准确性。虽然训练图像分类器的深度神经网络(DNN)中数据质量的重要性得到了广泛认可,但训练集中重复图像对模型泛化能力和性能的影响却很少受到关注。
在本文中,我们填补了这一空白,并提供了一份全面的关于图像分类中重复数据影响的研究。我们的分析表明,训练集中存在重复图像不仅负面影响了模型训练的效率,还可能导致图像分类器的准确性降低。重复数据的影响尤其明显,尤其是在类别间重复数据不均匀的情况下,或者当重复数据无论是均匀分布还是不均匀分布出现在对抗训练模型的训练集中时。即使重复样本是以均匀的方式选择的,增加重复数据的数量并不会显著提高准确性。
arXiv:2504.00046v2 宣告类型: replace-cross
摘要:近年来,社交媒体已成为用户在灾难和紧急情况下迅速分享反馈和问题的主要渠道,在危机管理中发挥了关键作用。虽然在收集和分析社交媒体内容方面取得了显著进展,但仍未满足增强自动化、聚合和定制这些数据以提供针对不同利益相关者(包括媒体、警察、紧急医疗服务和消防员)量身定制的可行见解的紧迫需求。这一努力对于改善诸如救济行动、资源分配和媒体传播等活动的协调至关重要。本文介绍了一种方法,该方法利用大型语言模型(LLM)的能力,以增强灾难响应和管理。我们的方法结合了分类技术与生成AI,以填补原始用户反馈与特定利益相关者报告之间的差距。在灾难事件期间共享的社交媒体帖子将重点分析用户报告的问题、服务中断和遇到的挑战。我们使用全谱LMLM,采用分析模型(如BERT)进行精确的多维内容类型分类、情感、情绪、地理定位和主题分类。然后使用生成模型(如ChatGPT)生成适合不同受众的人类可读、信息丰富的新报告,综合了详细分类中获得的见解。我们将标准方法与我们的先进方法进行了比较,后者在ChatGPT中使用多维分类、子事件选择和定制化报告生成。我们的方法在定量指标(如文本连贯性评分和潜在表示)和自动化工具和实地专家进行的定性评估中都显示出更优的性能,为不同的灾难应对利益相关者提供了精准的见解。
arXiv:2503.10673v2 评测类型: replace-cross
摘要: 我们引入了ZeroSumEval,这是一个利用竞赛游戏的动态、竞争性和进化的大型语言模型(LLMs)评估框架。ZeroSumEval 包含一系列多样的游戏,包括安全挑战(夺旗)、经典桌面游戏(象棋)和知识测试(MathQuiz)。这些游戏旨在评估战略推理、计划、知识应用、安全性和适应性等多种能力。通过最近的研究强调了基于游戏的评估对于LLMs的有效性,ZeroSumEval 进一步通过提供一个标准化和可扩展的框架来简化游戏的实现,并利用 DSPy 为LLMs玩家策略提供更好的抽象。
arXiv:2503.09956v3 宣告类型: replace-cross
摘要:基于强化学习(RL)的大语言模型(LLMs),如ChatGPT、DeepSeek和Grok-3,因其在自然语言处理和多模态数据理解方面的卓越能力而备受关注。与此同时,信息服务业的快速发展推动了对智能、高效和适应性强的无线网络的日益需求。无线网络需要利用基于RL的LLMs,而这些模型也从无线网络中受益,以扩大其应用场景。具体而言,基于RL的LLMs可以通过智能化资源分配、自适应网络优化和实时决策来提升无线通信系统。相反,无线网络为基于RL的LLMs的高效训练、部署和分布式推理提供了关键的基础设施,尤其是在去中心化和边缘计算环境中。这种相互赋能突显了深入探索这两个领域之间相互作用的必要性。我们首先回顾了无线通信领域的最新进展,突出相关的挑战和潜在解决方案。然后讨论了基于RL的LLMs的进展,重点介绍关键的LLMs训练技术、挑战和潜在解决方案。接下来,我们探讨了这两个领域的相互赋能,强调关键的动机、开放的挑战和潜在解决方案。最后,我们提供了关于未来方向、应用及其社会影响的见解,以进一步探索这一交汇点,为下一代智能通信系统铺平道路。总体而言,本文综述了基于RL的LLMs与无线网络之间的关系,提供了一个这些领域相互促进以推动创新的愿景。
arXiv:2502.20268v2 宣布类型: 替换交叉
摘要:大型语言模型(LLMs)在多种领域中展现了卓越的性能。然而,有效地利用它们的广泛知识来训练更小的下游模型仍然是一个开放的挑战,特别是在如表格数据学习等领域,由于可解释性和效率的原因,人们通常更偏好使用简单的模型。
在本文中,我们提出了一种新颖而简单的方 法,将LLM生成的全局任务特征贡献纳入更小网络的训练过程中。具体来说,我们提出了一个归属匹配正则项,使更小模型的训练动态与LLM提供的见解保持一致。通过这种方式,我们的方法在少样本学习场景中表现出更优的性能。值得注意的是,我们的方法只需访问LLM的黑盒API,这使得它能够以最小的计算开销集成到现有的训练管道中。
此外,我们展示了这种方法如何用于解决真实世界数据集中的常见问题,如偏斜和偏差。通过整合来自LLM的高层知识,我们的方法即使在训练数据有限或不平衡的情况下也能提高泛化的性能。我们通过在多个任务上进行广泛实验验证其有效性,展示了改进的学习效率和模型稳健性。
arXiv:2502.18553v3 宣告类型: replace-cross
摘要:在过去的十年中,深度学习算法取得了令人难以置信的进展,但由于其复杂性,深度学习的科学仍处于初期阶段。作为一种实验性很强的领域,自然地,人们试图在物理学范式中建立深度学习的理论框架。由于深度学习主要涉及学习函数及其分布,而统计场理论是一个适用于处理复杂函数分布的强大且多功能的工具箱,因此它显然是一个适当的正式表述形式。近年来进行的研究表明,场理论有能力为泛化、隐式偏置和特征学习效应提供有用的洞见。在这里,我们提供了一篇该 emerging 研究线的教科书式综述。
arXiv:2502.15610v2 声明类型: replace-cross
摘要:肽识别领域的进展正在彻底改变我们解读蛋白质功能和加速药物发现的能力。我们提出了 PDeepPP,这是一种将预训练蛋白质语言模型与并行变压器-CNN 架构结合的深度学习框架,实现了肽特征表征任务中的顶级性能。该模型的混合架构展示了在捕捉局部序列模式和全局结构特征方面的独特能力,其证据在于与传统方法相比,在 UMAP 可视化中簇分离度提高了 29%。在涵盖 33 个生物识别任务(包括翻译后修饰位点预测和生物活性肽识别)的评估中,PDeepPP 在 25 个任务中超过了现有方法,平均 AUC 提高了 4.2%。值得注意的是,在抗菌肽检测方面,PDeepPP 达到了 0.9726 的准确性,PR AUC 为 0.9977,同时在抗疟疾识别场景中将假阴性率减少了 37.5%。该框架能够实现大规模肽分析的精确性,相对于序列比对方法实现了 218 倍的加速,在关键的糖基化位点检测中维持了 99.5% 的特异性。PDeepPP 通过其协同架构设计,建立了计算肽分析的新范式,使其能够快速而准确地将分子模式识别与转化生物医药应用相结合。我们已通过 GitHub(https://github.com/fondress/PDeepPP)和 Hugging Face(https://huggingface.co/fondress/PDeppPP)发布了我们的实现,包括代码、数据和预训练模型。