LLM2D

arXiv 论文列表

作者: Enqiang Zhu, Chenkai Hao, Chanjuan Liu, Yongsheng Rao
arXiv:2505.04674v1 宣布类型: 新 摘要: 虽然人工智能(AI),包括生成式AI,在智能交通系统(ITS)中生成高质量的交通数据和优化解决方案方面非常有效,但这些技术通常需要大量的训练时间和计算资源,特别是在大规模和复杂场景中。针对这一问题,我们提出了一种新颖且高效的解决最大加权独立集(MWIS)问题的算法,该算法可用于模拟许多ITS应用,如交通信号控制和车辆路径规划。由于MWIS问题是NP难问题,我们的算法DynLS结合了三项关键技术来有效地解决该问题。首先,DynLS使用基于评分的自适应顶点扰动(SAVP)技术加速收敛,特别是在稀疏图中。其次,它包含一个区域定位机制(RLM),通过动态调整搜索空间帮助逃出局部最优解。最后,它采用了一种新颖的变量邻域下降策略(ComLS),该策略结合了顶点交换策略和奖励机制,以引导搜索向高质量解决方案方向进行。我们的实验结果表明,DynLS在性能上表现出色,能够在1000秒内始终提供高质量的解决方案。DynLS在360个测试实例中优于五种领先的算法,其中350个实例取得了最优解,并且在177个实例上超越了次优算法Cyclic-Fast。此外,DynLS与Cyclic-Fast的收敛速度相同,突显了其效率和实用性。这项研究代表了MWIS问题启发式算法的重要进步,为使用AI技术优化智能交通系统提供了有前景的方法。
发布时间: 5/9/2025
查看原文
arXiv:2505.04646v1 宣告类型: 新 摘要: 本文通过将基本的计算限制(可判定性、完全性、计算不可约性)与物理概念联系起来,探讨自主性和能动性的出现。我们提出了一种“最小代理”的正式模型,该代理在潜在的图灵完备环境中运行。利用算法信息论,我们论证了代理与环境相互作用的固有不可判定性和计算不可约性导致了不可预测性和新颖信息的生成,从而使得能动性(有效的目标导向行动)成为可能。计算不可约性防止了完全的外部预测,从而为自主行为创造了必要的条件。我们将这一观点与计算源性联系起来,其中代理是其行为不可约的起源,但正式化这一概念仍然具有挑战性。我们的中心论点,已经形式化证明,是真正的自主性必然在外部视角下体现为不可判断性,从而将自主系统与可预测系统区分开来。我们提出,在代理与环境耦合的复杂性允许内部状态与相关环境变量之间的互信息增加时(尤其是在不存在分析性解的情况下,需要操作上的封闭性以维持持久性时),能动性出现。该框架直接将能动性与相互作用的计算属性联系起来,提供了理解意识、设计自主AI以及在确定但计算上不可约的宇宙中重新构思自由意志的含义。
发布时间: 5/9/2025
查看原文
作者: Tianyu Liu, Simeng Han, Xiao Luo, Hanchen Wang, Pan Lu, Biqing Zhu, Yuge Wang, Keyi Li, Jiapeng Chen, Rihao Qu, Yufeng Liu, Xinyue Cui, Aviv Yaish, Yuhang Chen, Minsheng Hao, Chuhan Li, Kexing Li, Arman Cohan, Hua Xu, Mark Gerstein, James Zou, Hongyu Zhao
arXiv:2505.04638v1 通知类型: 新增 摘要: 大型语言模型(LLMs)和大型多模态模型(LMMs)在科学研究中已显示出革命性的潜力,但在生物医药应用中的可靠性和具体贡献仍然缺乏充分的评估。在本研究中,我们介绍了一种名为 \textbf{AR}tificial \textbf{I}ntelligence research assistant for \textbf{E}xpert-involved \textbf{L}earning(ARIEL)的多模态数据集,旨在测试和提升LLMs和LMMs在生物医药研究中的两个关键能力:总结大量科学文本和解释复杂生物医药图表。为了促进严格的评估,我们创建了两套开源数据集,包含生物医药文章和图表,并设计了相关问题。我们系统性地对开放式和封闭式基础模型进行了基准测试,并纳入了由博士级专家主导的人工评估。此外,我们通过针对摘要研究论文的提示工程和微调策略来提高模型性能,并为LMMs应用测试时的计算缩放,以增强其推理能力,从而在准确度上优于人类专家的修正。我们还探讨了使用LMM代理从多种多模态输入中生成科学假设的可能性。总体而言,我们的结果明确了当前基础模型的明显优势和重大局限性,提供了可操作的见解,并指导了未来在生物医药研究中部署大规模语言和多模态模型的发展方向。
发布时间: 5/9/2025
查看原文
作者: Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang
arXiv:2505.03335v2 宣告类型: replace-cross 摘要: 可验证奖励强化学习(RLVR)通过直接从基于结果的奖励中学习,展示了增强大型语言模型推理能力的潜力。最近在零样本设置下的RLVR工作避免了监督推理过程的标记,但仍依赖于手工编纂的问题和答案集合进行训练。高质量的人类生成示例的稀缺性引发人们对依赖人类监督的长期可扩展性的担忧,这一挑战已经在语言模型预训练领域表现出明显迹象。此外,在假设未来人工智能超越人类智能的情况下,人类提供的任务可能为超级智能系统提供有限的学习潜力。为了解决这些问题,我们提出了一种新的RLVR范式称为绝对零,在这种范式中,单一模型学会提出最大化自身学习进步的任务,并通过解决这些问题来提升推理能力,而无需依赖任何外部数据。在这个范式下,我们引入了绝对零推理器(AZR),这是一个通过使用代码执行器来验证提出的代码推理任务并验证答案的系统,从而自我进化其训练课程和推理能力,并作为一个统一的可验证奖励来源,指导开放而具体的学习。尽管完全在没有外部数据的情况下进行训练,AZR在编码和数学推理任务上达到了总体SOTA性能,且优于依赖数万个领域内手工编纂示例的现有零设置模型。此外,我们展示了AZR可以在不同的模型规模下有效应用,并与其他模型类别兼容。
发布时间: 5/8/2025
查看原文
arXiv:2505.03204v2 更新类型: replace-cross 摘要:深度学习方法在分类乳腺癌组织病理学图像方面显示出潜力,但由于注解数据有限,其性能往往会下降,这是医学成像领域面临的关键挑战之一,因为注解需要高昂的成本和专业知识。
发布时间: 5/8/2025
查看原文
arXiv:2505.02369v3 宣告类型: replace-cross 摘要:尖度意识最小化(SAM)通过在参数的邻域内优化最坏情况损失来改进神经网络的泛化能力,但在使用整个梯度向量进行参数扰动时,包括统计意义较低的组件。我们引入了ZSharp,这是一种改进的尖度意识优化方法,结合了逐层Z分数归一化和基于百分位数的筛选。此过程仅选择梯度组件中最具统计意义的那些——梯度标准化后的绝对值较大——来构建扰动方向。ZSharp 维持了标准的两阶段 SAM 结构(上升和下降),但在上升步骤中侧重于更尖锐且与曲率相关的方向。我们在使用 ResNet、VGG 和视觉变换器等模型的 CIFAR-10、CIFAR-100 和 Tiny-ImageNet 数据集上评估了 ZSharp。在所有架构和数据集上,ZSharp 在测试准确率方面一直优于 SAM、ASAM 和 Friendly-SAM。这些结果表明,基于Z分数的梯度筛选可以增强更新方向的尖锐度敏感性,从而提高深度神经网络训练的泛化能力。
发布时间: 5/8/2025
查看原文
作者: Tianyu Zong, Hongzhu Yi, Bingkang Shi, Yuanxiang Wang, Jungang Xu
arXiv:2505.02366v2 宣布类型: replace-cross 摘要:无监督对比学习已成为自然语言处理领域的热点研究话题。现有工作通常旨在约束正样本和负样本在高维语义空间中表示的取向分布,但语义表示张量同时具备模和取向特征,现有工作忽略了表示的模特征,导致对比学习效果不足。因此,我们首先提出了一种训练目标,旨在对语义表示张量施加模约束,以增强对比学习中正样本之间的对齐。此外,BERT 类模型会遭受注意力下沉的现象,导致对聚合语义信息的[CLS]标记关注不足。为应对这一问题,我们提出了一种双塔ensemble模型之间的交叉注意力结构,以增强模型对[CLS]标记的注意力并优化[CLS]池化质量。结合上述两个动机,我们提出了一个新的 **J**oint **T**ensor representation模约束和 **C**ross-attention无监督对比学习 **S**entence **E**mbedding框架 JTCSE,在七个语义文本相似性计算任务中进行了评估,实验结果显示 JTCSE 的双塔ensemble模型和单塔蒸馏模型优于其他基线,并已成为当前SOTA。此外,我们还进行了广泛的零样本下游任务评估,结果显示 JTCSE 在超过130个任务中整体表现优于其他基线。
发布时间: 5/8/2025
查看原文
作者: Kaidong Zhang, Rongtao Xu, Pengzhen Ren, Junfan Lin, Hefeng Wu, Liang Lin, Xiaodan Liang
arXiv:2505.01709v2 通告类型: replace-cross 摘要:在开放性场景中操作具有多样任务的机器人是机器人学研究和应用的重要方向。虽然最近在自然语言处理和大规模多模态模型方面的进展增强了机器人理解复杂指令的能力,但在开放环境中机器人操作仍然面临着程序性技能难题和声明性技能难题。现有方法往往在认知能力和执行能力上做出妥协。为了解决这些挑战,本文提出了一种用于通用机器人操作的层次化智能架构 RoBridge。RoBridge 由一个基于大规模预训练视觉语言模型 (VLM) 的高层认知规划器 (HCP)、一个作为符号桥梁的不变可操作表示 (IOR) 以及一个通用体态代理 (GEA) 组成。RoBridge 保留了 VLM 的声明性技能,并释放了强化学习的程序性技能,有效地弥合了认知与执行之间的差距。RoBridge 在新任务上的性能显著提高,仅使用每个任务五个实际数据样本,即在模拟到现实的泛化中实现了 83% 的平均成功率和 75% 的成功率。本工作代表了在机器人系统中结合认知推理与物理执行的重要进展,提供了一种新的通用机器人操作范式。
发布时间: 5/8/2025
查看原文
作者: Andrew K. Lampinen, Arslan Chaudhry, Stephanie C. Y. Chan, Cody Wild, Diane Wan, Alex Ku, J\"org Bornschein, Razvan Pascanu, Murray Shanahan, James L. McClelland
arXiv:2505.00661v2 宣告类型: replace-cross 摘要:大语言模型展现出令人兴奋的能力,但在微调后表现出惊人的狭窄泛化能力。例如,它们可能会在训练过的关联关系反转上失败泛化,或基于训练信息进行简单的逻辑推理时失败。这些微调后泛化失败会妨碍这些模型的实际应用。另一方面,语言模型的在上下文学习表现出不同的归纳偏置,并且在某些情况下能够更好地泛化。在这里,我们探索了上下文学习和微调学习在泛化方面的差异。为此,我们构建了几个新型数据集来评估和改进模型从微调数据中泛化的能力。这些数据集的设计旨在通过隔离数据集中的知识和预训练中的知识来创建干净的泛化测试。我们向这些数据集中的信息的受控子集暴露预训练的大模型——要么是在上下文中,要么是通过微调——并在要求各种类型泛化的测试集上评估它们的性能。总体而言,我们发现,在数据匹配的设置中,上下文学习比微调更能灵活地泛化(尽管我们也发现了一些以前发现的例外情况,如微调可以泛化到更大知识结构中嵌入的反转情况)。基于这些发现,我们提出了一种方法,以使微调后的泛化能力改进:向微调数据中添加上下文推断。我们展示了这种方法在我们数据集的不同分割以及其他基准测试上都提高了泛化的性能。我们的结果对于理解语言模型不同学习模式的归纳偏置具有重要意义,并且可以实际改进它们的性能。
发布时间: 5/8/2025
查看原文
作者: Jiaqi Liu, Ran Tong, Aowei Shen, Shuzheng Li, Changlin Yang, Lisha Xu
arXiv:2504.21226v2 宣告类型: replace-cross 摘要:Memes 往往将视觉元素与简短的文字结合起来分享幽默或观点,但一些 meme 包含有害信息,如仇恨言论。在这篇论文中,我们介绍了一个轻量级的多模态系统 MemeBLIP2,该系统通过有效结合图像和文本特征来检测有害 meme。我们在先前研究的基础上增加了模块,将图像和文本表示映射到共享空间并融合它们以提高分类效果。以 BLIP-2 为核心视觉语言模型,我们的系统在 PrideMM 数据集上进行了评估。结果显示,MemeBLIP2 能够捕捉到两个模式中的微妙线索,即使是在具有讽刺性或文化特定内容的情况下,从而提高了有害内容的检测效果。
发布时间: 5/8/2025
查看原文