arXiv:2504.08161v1 共享类型: 交叉
摘要: 持续强化学习的方法和技术引起了越来越多的关注。早期的许多进展建立在传统强化学习的基础和标准实践之上,却未质疑它们是否适合持续学习代理所面临的挑战。我们建议,实际上,传统强化学习的核心基础中有许多与持续强化学习的目标相悖。我们列举了四个这样的基础:马尔可夫决策过程的形式化、对最优策略的关注、以预期奖励之和作为主要评估指标,以及采纳其他三个基础的 episodic 基准环境。放弃这些被视为神圣的教学概念并不容易。因为每个基础都依赖于和支撑着其他基础,使得单独重新审视每一项变得困难。我们提议了一套更适合持续学习环境的四个基础。我们希望激发其他人重新思考传统基础,提出并批判新的替代方案,并开发基于更适宜基础的新算法和技术。
arXiv:2504.08115v1 宣传类型: 交叉
摘要:异常检测是计算机视觉和机器学习中的关键研究挑战,有许多领域的应用,从小质量控制到雷达成像。在雷达成像中,特别是合成孔径雷达(SAR),异常检测可用于目标物体的分类、检测和分割。然而,没有方法可以用于开发和基准测试这些方法在SAR成像上的表现。为了解决这一问题,我们介绍了SAR成像异常检测(SARIAD)。结合Anomalib,一个用于异常检测的深度学习库,SARIAD提供了一整套算法和数据集,用于评估和开发针对SAR成像的异常检测方法。SARIAD特别整合了多个SAR数据集,并提供了工具来有效应用于SAR成像的各种异常检测算法。多种异常检测指标和可视化工具可供使用。总体而言,SARIAD充当了一个基准包,用于对SAR模型和数据集进行基准测试,以便在SAR成像领域的异常检测研究中实现可重复性。此包已公开提供:https://github.com/Advanced-Vision-and-Learning-Lab/SARIAD。
arXiv:2504.08104v1 攻击类型: 横向
摘要:旨在使大型语言模型(LLM)执行不受限制行为的监狱突破攻击已成为人工智能安全领域的一个关键且具有挑战性的方向。尽管使用基于字典的评估已经实现了令人鼓舞的攻击成功率,但现有的监狱突破攻击方法无法输出详细的攻击内容以满足有害请求,导致在基于GPT的评估中表现不佳。为了解决这一问题,我们提出了一种名为GeneShift的黑盒监狱突破攻击,通过使用遗传算法优化场景转换。首先,我们观察到恶意查询在不同的场景转换下表现最优。基于此,我们开发了一个遗传算法来进化和选择场景转换的混合体。它引导我们的方法产生详细的、可执行的有害响应,同时保持看似无害的表象,从而提高隐秘性。广泛的实验表明,GeneShift表现优越。值得注意的是,当直接提示失败时,GeneShift将监狱突破成功率从0%提高到了60%。
arXiv:2504.08102v1 宣告类型: cross
摘要: 鉴于假新闻在社交媒体上传播速度和规模之大,自动检测假新闻已成为一项极其重要的任务。然而,这一任务面临着诸多挑战,包括提取包含假新闻相关信息的文本特征。关于假新闻检测的研究表明,没有任何一种特征提取技术能够在所有场景中始终优于其他方法。尽管如此,不同的特征提取技术可以提供互补的信息,并且能够使文本数据的表示更为全面。本文提出使用多视图自动编码器来生成假新闻检测的联合特征表示,通过整合文献中常用的几种特征提取技术。在假新闻数据集上的实验结果显示,这种方法的分类性能明显优于单独的视图(特征表示)。我们还观察到,选择部分视图而非将所有视图组合成一个潜在空间,从准确性和计算成本角度来看,可能更为有利。更多细节,包括源代码、图表和数据集,请参阅项目的仓库:https://github.com/ingrydpereira/multiview-fake-news。
arXiv:2504.08096v1 宣告类型: cross
摘要: 细胞发育遵循一条既随机又受规则制约的轨迹,尽管其背后的原理依然难以捉摸。在此,我们提出细胞发育遵循最小作用路径,与自然界动态系统所遵循的基本物理规律相一致。我们介绍了一种计算框架,该框架利用最小作用原理与最大熵之间的深刻联系,使用Transformer架构来建模发育过程。这种方法能够精确量化熵生产、信息流曲率和发育不对称性中的局部不可逆性。在这一统一框架中,我们提供了可解释的度量标准:熵来捕捉探索与利用之间的权衡,曲率来评估塑性与弹性 dynamics 的动态,熵生产来表征去分化和转分化。我们在单细胞和胚胎发育数据集上验证了我们的方法,展示了其揭示塑造细胞命运决定的隐藏热力学和信息约束的能力。
arXiv:2504.08061v1 Announce Type: cross
摘要:交通数据表现出复杂的时间、空间以及时空相关性。大多数模型要么使用独立模块分别提取时间相关性和空间相关性,要么使用联合模块同步提取它们,而忽略了时空相关性。此外,考虑联合时空相关性(时间、空间和时空相关性)的模型常常面临准确性与计算效率的重大挑战,这使得这些模型无法充分发挥联合时空相关性架构的优势。为了解决这些问题,本文提出了一种通过时空编码与推理(STEI-PCN)的空间交通预测高效纯卷积网络。该模型引入并设计了一个基于绝对时空坐标和相对时空距离编码的动态邻接矩阵推理模块,利用带有门控机制的图卷积网络捕捉局部同步联合时空相关性。此外,还使用了三层时空扩张因果卷积网络来捕获长程时间相关性。最后,通过多视图协作预测模块,该模型将门控激活的原始、局部同步联合时空以及长程时间特征进行集成,以实现综合预测。在流量数据集(PeMS03/04/07/08)和速度数据集(PeMS-Bay)上进行了广泛的实验,涵盖了多个预测时间范围。结果显示,STEI-PCN在训练和推理速度上展现了具有竞争力的计算效率,并在大多数评估指标上达到了或略逊于最先进的(SOTA)模型。
arXiv:2504.08057v1 声明类型:交叉
摘要:质量多样性算法通过优先发现多样且高性能的解决方案,而非单一最优结果,改变了优化的方式。然而,传统的质量多样性方法,如MAP-Elites,高度依赖于预定义的行为描述符和任务的全面先验知识,以定义行为空间网格,这限制了它们的灵活性和适用性。在本工作中,我们提出了向量量化精英(VQ-Elites)算法,这是一种新颖的质量多样性算法,能够自主构建结构化的行为空间网格,无需依赖特定任务的先验知识。VQ-Elites的核心在于将向量量化变分自动编码器的集成,这使得能够动态学习行为描述符并生成结构化的而非无结构的行为空间网格,这是现有无监督质量多样性方法的一个重要进步。这种设计使VQ-Elites成为一种灵活、稳健且任务无关的优化框架。为进一步增强无监督质量多样性的算法性能,我们引入了两个关键组件:行为空间边界和合作机制,这些机制显著改善了收敛性和性能。我们通过机器人手臂姿态到达和移动机器人空间覆盖任务验证了VQ-Elites。实验结果展示了其高效生成多样且高质量解决方案的能力,突显了其适应性、可扩展性和对超参数的鲁棒性,并表明其有能力将质量多样性优化扩展到复杂且此前难以触及的领域。
arXiv:2504.08054v1 交叉公告类型:
摘要:三重损失传统上仅依赖于类别标签,并未在多种注释类型可供使用的多任务场景中利用所有可用信息。本文提出了一种多注释三重损失(MATL)框架,通过在损失函数中结合其他注释(如边界框信息)和类别标签来扩展三重损失。通过利用这些互补注释,MATL 在需要同时进行分类和定位的任务中改善了多任务学习。在空中野生动物图像数据集上的实验证明,MATL 在分类和定位方面均优于传统的三重损失。这些发现强调了在多任务学习框架中使用所有可用注释对三重损失的益处。
arXiv:2504.08051v1 类型: cross
摘要: 许多生成应用,例如基于合成的三维分子设计,涉及构建具有连续特征的组合对象。在此,我们引入了组合生成流(CGFlow)这一新颖框架,该框架将流匹配扩展到组合步骤中以生成对象,同时建模连续状态。我们的核心洞察是,建模组合状态转换可以被表述为流匹配插值过程的直接扩展。我们进一步在此基础上建立生成流网络(GFlowNets)的理论基础之上,使奖惩导向的组合结构采样成为可能。我们将CGFlow应用于可合成药物设计,在分子的合成路径和三维结合姿势上联合设计。我们的方法在LIT-PCBA基准测试的所有15个目标上达到了最先进的结合亲和力,并且与基于二维合成的基线相比,在采样效率上提高了5.8倍。据我们所知,我们的方法也是首次在CrossDocked基准测试中同时在Vina Dock (-9.38) 和 AiZynth 成功率 (62.2%) 上达到最先进的性能。
arXiv:2504.08040v1 交叉类型:公告
摘要:医学文档分类对于将非结构化医疗文本转换为标准化的ICD-10诊断至关重要,但由于复杂的医学语言、隐私限制和有限的标注数据集,它面临着挑战。大型语言模型(LLMs)为这一任务提供了提高准确性和效率的潜力。本研究评估了八种LLMs的性能和一致性;四种推理模型(Qwen QWQ、Deepseek Reasoner、GPT o3 Mini、Gemini 2.0 Flash Thinking)和四种非推理模型(Llama 3.3、GPT 4o Mini、Gemini 2.0 Flash、Deepseek Chat),在使用MIMIC-IV数据集进行临床出院总结分类时的表现。使用cTAKES来结构化临床叙述,模型在三次实验运行中进行了评估,其中多数投票决定了最终预测。结果显示,推理模型在准确率(71% vs 68%)和F1分数(67% vs 60%)方面优于非推理模型,其中Gemini 2.0 Flash Thinking在准确率(75%)和F1分数(76%)方面表现最佳。然而,非推理模型展示了更大的稳定性(91% vs 84%的一致性)。不同ICD-10代码的性能有所不同,推理模型在复杂案例中表现突出,但在抽象类别方面则遇到困难。研究结果表明,在准确性与一致性之间存在权衡,这表明一种混合方法可以优化临床编码。未来的研究应该探索多标签分类、领域特定微调和集成方法,以提高模型在实际应用中的可靠性。