arXiv:2404.03080v4 宣布类型: replace-cross
摘要:材料科学的知识广泛分散在大量的科学文献中,这给高效发现和整合新材料带来了巨大挑战。传统方法通常依赖于昂贵且耗时的实验方法,进一步增加了快速创新的复杂性。为应对这些挑战,将人工智能与材料科学相结合已开辟了加速发现过程的新途径,但也需要精确注释、数据提取和信息的可追溯性。为解决这些问题,本文介绍了材料知识图谱(MKG),它利用先进的自然语言处理技术与大型语言模型结合,提取并系统地组织了十年高质量研究数据为结构化的三元组,包含162,605个节点和731,772条边。MKG 通过详细设计的本体将信息分类为全面的标签,如名称、公式和应用,从而提高数据的可用性和集成度。通过实施基于网络的算法,MKG 不仅促进了高效的链接预测,还显著减少了对传统实验方法的依赖。这种结构化方法不仅简化了材料研究,也为更复杂的科学知识图谱奠定了基础。
arXiv:2402.00045v5 Announce Type: replace-cross
摘要:大型人工智能模型(LAIMs),特别是扩散模型和大型语言模型的快速进展,标志着一个新时代的到来,在这个时代,由AI生成的多媒体越来越多地融入日常生活的各个方面。尽管在许多领域都带来了好处,但这种内容也带来了重大风险,包括可能的滥用、社会动荡以及伦理问题。因此,检测由LAIMs生成的多媒体变得至关重要,相关研究也出现了显著增长。尽管如此,仍存在一个值得注意的研究空白,即专注于检测LAIMs生成的多媒体的系统性调查。为了应对这一问题,我们提供了第一个涵盖检测LAIMs生成的多媒体(如文本、图像、视频、音频和多模态内容)现有研究的综述。具体而言,我们引入了一种新的分类法,按媒体模式分类,并与两种视角对齐:纯粹的检测(旨在提高检测性能)和超越检测(为检测器添加通用性、鲁棒性和可解释性等属性)。此外,我们还简要介绍了生成机制、公共数据集、在线检测工具和评估指标,为该领域的研究人员和从业者提供有价值的资源。最重要的是,我们从社交媒体的角度进行了重点分析,以突出其更广泛的社会影响。此外,我们指出了检测中当前面临的挑战,并提出了应对未探索、正在进行和新兴问题的研究方向,以检测LAIMs生成的多媒体。我们此次综述旨在填补学术空白,为全球AI安全努力做出贡献,帮助确保数字领域的信息完整性。项目链接为https://github.com/Purdue-M2/Detect-LAIM-generated-Multimedia-Survey。
arXiv:2401.07378v3 宣告类型: 替换-交叉
摘要: 土推移距离(EMD)是两个分布之间重要相似性度量,在计算机视觉和其他许多应用领域中都有应用。然而,其精确计算在计算和内存方面都极其耗时和耗资源,这阻碍了其在大规模问题中的可扩展性和适用性。已经提出了多种大约 EMD 算法以减少计算成本,但这些方法在准确性和可能需要额外内存使用或手动参数调整方面存在不足。在本文中,我们提出了一种新的方法 NNS-EMD,通过最近邻搜索(NNS)来近似 EMD,以实现高精度、低时间复杂度和高内存效率。NNS 操作减少了每次 NNS 迭代中比较的数据点数量,并为并行处理提供了机会。我们还通过 GPU 向量化进一步加速了 NNS-EMD,这对大型数据集尤为有益。我们比较了 NNS-EMD 与 EMD 的精确实现和最先进的大约 EMD 算法在图像分类和检索任务中的性能。我们还使用 NNS-EMD 计算运输映射,并在图像之间实现色彩转移。NNS-EMD 相对于精确 EMD 实现可以快 44 到 135 倍,并在对比现有的大约 EMD 方法时展现出卓越的准确度、加速和内存效率。
arXiv:2209.14946v3 宣告类型: replace-cross
摘要:本文开发了一种新的EiHi网络,以解决深度学习中的离群分布(OoD)泛化问题。EiHi网络是一种可以在任何视觉骨干上实现的模型学习范式。这种范式可以改变深度模型的先前学习方法,即找出归纳样本特征与相应类别之间的关联,而这些关联遭受了不确定特征与标签之间虚假关联的影响。我们通过明确且动态地建立原始-正样本-负样本配对作为最小的学习元素,将SimCLR和VIC-Reg融合起来,深度模型在迭代中建立特征与标签之间的关系,同时抑制虚假关联。为了进一步验证所提出模型,并加强建立的因果关系,我们开发了一种人工在回路策略,利用少量指导样本直接修剪表示空间。最后,结果显示,所开发的EiHi网络在最具挑战性和典型的OoD数据集Nico上取得了显著改进,与当前的SOTA结果相比,无需任何领域(例如背景、无关特征)信息。
arXiv:2505.07773v2
Announce Type: 重发
摘要:大型语言模型(LLMs)在进行需要精确且可验证计算的数学推理任务时往往表现不佳。尽管基于结果奖励的强化学习(RL)可以增强文本推理能力,但理解代理如何自主学习利用外部工具(如代码执行)的能力仍然至关重要。我们研究了基于结果奖励的工具集成推理(ZeroTIR),旨在训练基础LLM自发生成和执行Python代码来解决数学问题,而无需监督工具使用示例。我们的主要贡献在于,我们展示了随着RL训练的进行,关键指标可以预期内化地增长。具体来说,我们观察到强烈的正相关关系:随训练步数增加,自发代码执行的频率、平均响应长度以及最终任务准确性都会增加。这表明了在训练中投入的计算努力与有效工具增强推理策略的出现之间存在可量化的关系。我们实现了一个健壮的框架,其中包括松耦合的代码执行环境,并在标准的RL算法和框架中验证了我们的发现。实验表明,ZeroTIR在挑战性的数学基准测试上明显优于无工具的ZeroRL基线。我们的发现为自主工具使用在代理RL中如何获得及其扩展提供了一个基础理解,并为未来的研究提供了一个可再现的标准。代码发布在 \href{https://github.com/yyht/openrlhf_async_pipline}{https://github.com/yyht/openrlhf_async_pipline}。
arXiv:2505.07089v2 宣告类型: 替换
摘要:由大型语言模型(LLMs)驱动的自动化渗透测试(AutoPT)因其能够利用LLMs固有的知识自动执行伦理黑客流程并识别目标系统的漏洞而引起关注。然而,现有的基于LLM的AutoPT框架在挑战性任务中的表现通常不及人类专家,原因包括LLM训练中知识的不平衡、计划过程中的短视规划以及命令生成过程中的幻觉。此外,渗透测试(PT)过程因其试错性质而受到现有框架的限制,这些框架缺乏从过往失败操作中学习的机制,限制了PT策略的适应性改进。为了解决这些限制,我们提出了一种由LLM驱动的知识驱动自我反思型渗透测试框架,称为RefPentester,这是一种旨在协助人类操作员识别当前PT过程阶段、选择合适战术和技巧、选择建议操作、提供分步操作指南,并从过往失败操作中学习的AutoPT框架。我们还将PT过程建模为一个七状态阶段机,以有效地集成所提出框架。评估结果显示,RefPentester能在Hack The Box的Sau机器上成功揭示凭证,比基线GPT-4o模型高出16.7%的成功率。在整个PT阶段中,RefPentester还在PT阶段过渡方面展示了更高的成功率。
arXiv:2505.06977v2 宣告类型: 替换
摘要: 多任务模型合并提供了一种有前途的范式,可以在无需额外训练的情况下将多个专家模型集成到一个统一模型中。现有的最先进的技术,如任务算术及其变体,通过累积任务向量——预训练模型和微调模型之间的参数差异——来合并模型。然而,任务向量累积往往受到知识冲突的阻碍,导致性能下降。为了解决这一挑战,我们提出了一种名为冲突感知任务合并(CAT Merging)的新颖无训练框架,该框架选择性地修剪任务向量中的冲突易感组件。CAT Merging 引入了几种针对参数的具体策略,包括对线性权重进行投影,以及对归一化层中的缩放和移位参数进行掩码。在视觉、语言和多模态任务上的广泛实验表明,CAT Merging 有效地抑制了知识冲突,相对于最先进的方法在 ViT-B/32 上平均提高了 2.5% 的准确率,在 ViT-L/14 上平均提高了 2.0%。
arXiv:2505.02306v3 宣告类型: 更改
摘要:尽管有大量的公共安全文件和应急预案,但在危机期间,大多数个人仍然缺乏解读和应对此类信息的能力。传统的应急决策支持系统(EDSS)是为专业人士设计的,并且严重依赖静态文档,如PDF或操作程序,这使得非专家在压力下难以导航。机构知识与公众访问之间存在的这一差距构成了有效应急准备和响应的关键障碍。我们介绍了一种检索增强的人工智能助手SafeMate,它为一般用户在准备和实际紧急情景中提供准确且基于上下文的指导。SafeMate基于Model Context Protocol (MCP) 构建,能够动态路由用户查询到文档检索、检查清单生成和结构化总结工具。它使用FAISS和余弦相似度来识别来自可信来源的相关内容。
arXiv:2503.21620v4 宣告类型: 更换
摘要: 最近的 DeepSeek-R1 通过基于规则的奖励强化学习 (RL) 展示了大型语言模型 (LLMs) 中推理能力的出现。尽管它在语言模型中取得了成功,但在多模态领域,特别是在图形用户界面 (GUI) 代理任务中,其应用仍然未被充分探索。为了解决这一问题,我们提出了 UI-R1,这是一种探索基于规则的 RL 如何增强多模态大型语言模型 (MLLMs) 在 GUI 动作预测任务中推理能力的第一种框架。具体而言,UI-R1 引入了一种新颖的基于规则的动作奖励,使得通过基于策略的算法(例如组相对策略优化 (GRPO))进行模型优化成为可能。为了高效训练,我们精心构建了一个包含 136 个具有挑战性的任务的小型高质量数据集,这些任务涵盖了移动设备上的五种常见操作类型。实验结果表明,我们的提出的 UI-R1-3B 在领域内 (ID) 和领域外 (OOD) 任务上均优于基线模型(即 Qwen2.5-VL-3B),平均准确率分别提高了 22.1%(ScreenSpot)、6.0%(ScreenSpot-Pro)和 12.7%(ANDROIDCONTROL)。此外,UI-R1-3B 在使用 76,000 个样本进行监督微调 (SFT) 训练的大模型(例如 OS-Atlas-7B)中表现出竞争力。我们还开发了一个优化版本 UI-R1-E-3B,它显著提高了接地效率和准确性。这些结果突显了基于规则的强化学习在推进 GUI 理解和控制方面的潜力,为未来在此领域的研究铺平了道路。代码网站: https://github.com/lll6gg/UI-R1。
arXiv:2503.18938v3 宣告类型: 替换
摘要:世界模型旨在学习由动作控制的未来预测,并已被证明对于智能代理的发展至关重要。然而,大多数现有的世界模型严重依赖于大量标记动作的数据和昂贵的训练,这使得它们难以通过有限的交互来适应具有异构动作的新环境。这一局限性可能阻碍其在更广泛的领域中的应用。为了克服这一局限性,我们提出了AdaWorld,这是一种创新的世界模型学习方法,能够实现高效的适应。关键思路是在世界模型的预训练过程中引入动作信息。这通过一种自我监督的方式从视频中提取潜在动作来实现,捕捉帧之间的关键过渡。然后,我们开发了一种条件生成的世界模型,该模型基于这些潜在动作进行条件化。这种学习范式使得世界模型可以高度适应,即使在有限的交互和微调情况下也能高效地转移和学习新动作。我们在多个环境中的全面实验表明,AdaWorld 在仿真质量和视觉规划方面均表现出优越的性能。