arXiv:2505.01462v1 宣告类型: 新
摘要: 这篇概念性贡献提出了关于AI系统如何模仿人类和动物所体验到的情绪的一种推测性描述。本文基于自然情绪可能作为快速情境评估和行为选择的启发式算法演化的假设,探讨了这些原理是否同样可以应用于在复杂行为空间中运行的系统。提出将情感与事件记忆融合,通过存储与所有事件相关的相应情感标签,使AI能够判断当前情境是否类似于过去事件,并将关联的情感标签投射到当前情境中。这些情感提示随后与需求驱动的情感提示相结合。结合起来的情感状态通过调节行为选择来促进当前决策。强调所提议架构的低复杂性和体验性无能,作为一种证据表明,情感表达和意识是原则上相互独立的——允许情感僵尸的理论可能性。基于此,对模仿情感状态的AI的道德地位进行了批判性审查。认为不仅仅是内部情感表征的存在或仅仅是意识本身,不足以构成道德地位;相反,内在意识状态的自我意识能力被设想为必要条件。提出一种基于复杂性标准的准则来排除该模型中的这种意识。另外提出了进一步的思维实验来测试该框架的理论边界。
arXiv:2505.01441v1 宣布类型: 新闻
摘要: 大型语言模型(LLMs)在复杂推理任务中取得了显著进展,但它们仍然因其依赖静态内部知识和仅基于文本的推理而受到根本限制。现实生活中的问题解决往往需要动态、多步骤的推理、适应性决策以及与外部工具和环境互动的能力。在本工作中,我们引入了ARTIST(自主推理和自我改进变换器中的工具集成),这是一种统一框架,将自主推理、强化学习和工具集成紧密结合在一起,为LLMs提供支持。ARTIST使模型能够自主决定何时、如何以及使用哪些工具在多轮推理链中进行调用,通过基于结果的强化学习来学习工具使用和环境互动的稳健策略,而不需要逐步骤的监督。在数学推理和多轮函数调用基准测试中的广泛实验表明,ARTIST在所有基准测试中都优于最先进的基线,相较于基模型的绝对改进率最高可达22%,在最具有挑战性的任务上也取得了显著的增益。详细的分析和度量研究揭示了自主强化学习训练导致更深入的推理、更有效的工具使用和更高质量的解决方案。我们的结果确立了自主强化学习与工具集成作为LLMs中强大、可解释和可泛化的解决问题的新前沿。
arXiv:2505.00598v2 宣告类型: replace-cross
摘要: 为了解决基因组建模中计算资源不足的挑战,我们提出了GERM,一种具有强大压缩性能和快速适应能力的基因组基础模型。GERM 在 DNABERT-2 等模型的基础上,通过消除阻碍低秩适应和后训练量化的小样本,同时提高了效率和鲁棒性。我们用受关联记忆模型启发的无异常机制替换了标准的注意力层。通过在预训练和微调过程中都去除异常值,这种方法加快了适应速度,减少了计算成本,并在可接受的损失范围内增强了量化鲁棒性。此外,我们还提出了GERM-T策略,该策略在无异常值框架下采用了小步连续学习方法,利用原始检查点以避免从头开始重新训练。实验证明,与基线模型相比,GERM 将微调性能提高了37.98%,量化性能提高了64.34%。此外,GERM 还将平均峰度降低了92.14%,将最大无穷范数降低了82.77%。与领先方法相比,GERM 一直提供了更优的性能,为资源受限环境下的基因组建模提供了一个实用的解决方案。代码可在 https://github.com/MAGICS-LAB/GERM 获取。
arXiv:2505.00568v2 通知类型: 交叉替换
摘要:多模态磁共振成像(MRI)是临床医生在治疗脑肿瘤时首先进行的研究,为手术规划、治疗监测和生物标志物识别提供了关键的见解。在大规模数据集上的预训练已被证明有助于模型学习可转移的表示,并且在最少有标签数据的情况下适应。在医疗成像中,这种行为特别有价值,因为注释通常稀缺。然而,将这种范式应用于多模态医疗数据引入了一个挑战:现有大多数方法假设所有成像模态在预训练和微调期间都可用。在实践中,模态数据缺失往往由于采集问题、专家不可用或小规模内部数据集的特定实验设计所引起。因此,一个常见的方法是为每种所需的模态组合训练一个单独的模型,这使得过程既资源密集,也不适用于临床使用。因此,我们介绍了BM-MAE,一种针对多模态MRI数据的掩码图像建模预训练策略。同一预训练模型能无缝适应任何可用模态的组合,提取丰富的表示,既能捕捉到模态内的信息,又能捕捉到模态间的信息。这使得可以在任意子集的模态上进行微调而无需架构上的更改,同时仍能够从完整组合模态的预训练模型中受益。大量的实验证明,所提出的方法在几乎所有下游任务中都优于或与需要为每个模态子集单独预训练的基线保持竞争力,同时在某些下游任务上显著优于从头开始训练。此外,它能够快速高效地重建缺失的模态,突显了其实用价值。代码和训练模型可在以下网址获取:https://github.com/Lucas-rbnt/BM-MAE
arXiv:2505.00254v2 通知类型: replace-cross
摘要:AI驱动的视频分析在众多领域中变得越来越关键。然而,现有的系统往往局限于特定的预定义任务,限制了它们在开放式分析场景中的适应性。最近,视频语言模型(VLMs)作为一种变革性技术的出现为实现开放式视频理解、推理和分析提供了巨大潜力。然而,它们有限的上下文窗口在处理真实世界应用中普遍存在的超长视频内容时提出了挑战。为了解决这个问题,我们引入了AVAS,这是一个基于VLM的系统,旨在实现开放式的高级视频分析。AVAS包含两项关键创新:(1) 近实时构建事件知识图谱(EKGs),用于高效索引长或连续视频流;(2) 一种代理检索生成机制,利用EKGs处理复杂多样的查询。在公开基准LVBench和VideoMME-Long上的全面评估表明,AVAS达到了最先进的性能,分别达到了62.3%和64.1%的准确性,显著超越了现有的VLM和视频检索增强生成(RAG)系统。此外,为了评估超长和开放世界视频场景中的视频分析,我们引入了一个新的基准AVAS-100。该基准包含8个超过10小时的视频,以及120个手动注释、多样和复杂的问答对。在AVAS-100上,AVAS取得了顶级性能,准确率为75.8%。
arXiv:2505.00016v2 公告类型: 替换-交叉
摘要:本文将 Text-to-SQL 任务重新定义为教大规模语言模型(LLMs)在表格数据上进行推理和操作的一种途径——超越传统的查询生成重点。我们提出了一种两阶段框架,利用 SQL 监督来发展可转移的表格推理能力。首先,我们从真实的 SQL 查询中综合详细的推理链(CoT)痕迹,提供逐步、语句级别的监督,教导模型如何遍历、筛选和聚合表格字段。其次,我们引入了一种组相对政策优化(GRPO)的强化学习目标,通过鼓励超过特定任务语法的步骤,并在不同数据集中迁移,将 SQL 执行准确性与可泛化的推理连接起来。实验证明,我们的方法在标准的 Text-to-SQL 基准测试中提高了性能,并在注重推理的数据集中,如 BIRD 和 CRT-QA 上取得了显著的提升,展示了增强的泛化能力和可解释性。具体来说,蒸馏量化 LLaMA 模型在 Text-to-SQL 任务训练后,准确率相对提高了 33.9%,而 Qwen 相对提高了 14.5%。这些结果表明,SQL 不仅可以作为目标形式化语言,还可以作为一种有效的支撑结构,用于在结构化数据上学习稳健且可转移的推理。
arXiv:2504.19139v2 宣告类型: replace-cross
摘要:任务鲁棒适应是顺序决策领域的长期追求。一些风险厌恶策略,例如条件值-at-风险原则,被纳入领域随机化或元强化学习中,以在优化中优先考虑困难的任务,这需要昂贵的密集评估。效率问题促使了鲁棒主动任务采样的发展,用于培训适应性策略,其中使用风险预测模型来替代策略评估。本工作将鲁棒主动任务采样的优化管道建模为马尔可夫决策过程,提出理论和实践洞察,并在风险厌恶场景中构成鲁棒性概念。重要的是,我们提出了一种易于实现的方法,称为后验与多样性协同任务采样(PDTS),以适应快速且鲁棒的顺序决策。广泛的实验表明,PDTS 解锁了鲁棒主动任务采样的潜力,显著提高了在挑战性任务中的零样本和少样本适应鲁棒性,并且在某些场景下甚至加快了学习过程。我们的项目网站位于 https://thu-rllab.github.io/PDTS_project_page。
arXiv:2504.18814v2 通告类型: 替换-交叉
摘要:车辆互联网(IoV)通过增强连接性和使自动驾驶成为可能,正在改变交通运输。然而,这种增强的互连性引入了新的安全漏洞。网络机器人病毒和网络攻击给连接和自动驾驶车辆(CAVs)带来了显著的风险,这一点已在远程车辆系统被攻破的真实事件中得到体现。为了解决这些挑战,我们提出了一种基于边缘的入侵检测系统(IDS),该系统监控发送到和来自CAVs的网络流量。我们的检测模型基于一个多元整体分类器,能够识别已知(Nday)攻击并检测未见过的(零日)攻击。这种方法包括在多接入边缘计算(MEC)服务器上对多个孤立森林(IF)模型进行训练,每个IF专门用于识别特定类型的僵尸网络攻击。这些IF,无论是通过本地训练还是与其他MEC节点共享,然后通过基于粒子群优化(PSO)的堆叠策略聚合,构建一个稳健的整体分类器。所提出的IDS在车辆僵尸网络数据集上进行了评估,针对已知攻击的平均检测率为92.80%,针对零日攻击的检测率为77.32%。这些结果突显了该解决方案在检测已知和新兴威胁方面的有效性,为IoV生态系统中的CAVs提供了一种可扩展且适应性强的防御机制。
arXiv:2504.16276v2 通知类型: 替换-交叉
摘要:本文介绍了一种全自动的一次性鸟类叫声分类流水线,专门用于大型公开可用分类器(如BirdNET和Perch)中缺少分类记录的稀有物种。虽然这些模型在大量训练数据的情况下检测常见鸟类方面表现出色,但它们缺乏仅具有1-3个已知记录的物种的选项——这对于正在监控濒临灭绝鸟类最后个体的保护工作者来说是一个关键限制。为了解决这一问题,我们利用大型鸟类分类网络的嵌入空间,并开发了一个使用余弦相似度结合过滤和去噪预处理技术的分类器,以在最少的训练数据下优化检测。我们使用聚类度量评估了不同的嵌入空间,并在模拟场景(使用Xeno-Canto记录)和对极度濒危的晚噤嘴鸽(Didunculus strigirostris)进行全面评估中验证了我们的方法。这种极度濒危鸟类没有已有的分类器,仅有三个确认记录。最终模型在检测晚噤嘴鸽叫声方面实现了1.0召回率和0.95的准确率,使其在实地使用中具有实用性。开源系统为寻找和监控处于灭绝边缘的稀有物种的保护工作者提供了一个实用工具。
arXiv:2504.14204v2 通告类型: replace-cross
摘要:时间序列异常检测在风险识别和故障检测的多个应用领域中具有显著的重要性。无监督学习方法由于不需要标签而变得流行。然而,由于异常模式的多样性、异常的稀疏性和数据规模与复杂性的增长所带来的挑战,这些方法往往难以捕捉到时间序列中用于识别异常的稳健且具有代表性的依赖关系。为了增强模型捕捉时间序列正常模式的能力,并避免依赖高质量先验知识导致建模能力的退化,我们提出了一种基于差分的对比表示学习框架,用于时间序列异常检测(DConAD)。具体而言,DConAD 生成差异数据以提供更多关于时间序列的信息,并利用基于变压器的架构来捕捉时空依赖关系,从而增强无偏表示学习能力的稳健性。此外,DConAD 实施了一种新颖的基于 KL 散度的对比学习范式,仅使用正样本以避免重建的偏差,并采用了停止梯度策略以强迫收敛。在五个公开数据集上的广泛实验表明,DConAD 在与九个基线方法的比较中显示出优越性和有效性。代码可在 https://github.com/shaieesss/DConAD 获取。