arXiv:2505.01438v1 交叉公告类型
摘要:材料应力分析是材料设计和性能优化的关键方面。在动态载荷下,材料的全局应力演化表现出复杂的时空特征,特别是在两相随机材料(TRMs)中。这种类型的材料失效往往与应力集中有关,相界是应力集中发生的关键位置。在实际工程应用中,获取的微观结构数据的空间时间分辨率及其动态应力演化往往受到限制。这对深度学习方法在生成高分辨率时空应力场,特别是准确捕捉应力集中区域的能力提出了挑战。在本研究中,我们提出了一种在动态载荷下TRMs中全局应力生成和时空超分辨率的框架。首先,我们引入了一种基于扩散模型的方法,命名为时空应力扩散(STS-diffusion),用于生成全局时空应力数据。该框架结合了空间-时间U-网络(STU-net),我们系统地研究了不同注意力位置对模型准确性的影响。接下来,我们开发了一种时空超分辨率的物理相关信息网络,称为时空超分辨率物理信息算子(ST-SRPINN)。所提出的ST-SRPINN是一种无监督学习方法。详细探讨了数据驱动和物理相关信息损失函数权重对模型准确性的影响。得益于基于物理的约束,ST-SRPINN在训练过程中只需要低分辨率应力场数据,并可以将应力场的时空分辨率放大到任意倍数。
arXiv:2505.01437v1 Announce Type: 横跨领域
摘要:物联网(IoT)技术已经迅速获得了 popularity,其应用广泛分布在多种行业中。然而,IoT 设备最近已成为对个人和企业信息系统进行许多恶意攻击的多孔层,而最著名的攻击是与僵尸网络相关的攻击。本研究中的工作利用了变分自编码器(VAE)和成本敏感学习来开发轻量级但有效的模型进行 IoT 僵尸网络检测。目的是增强对机器学习模型经常忽略的少数类攻击流量实例的检测。所提出的方法在高度不平衡数据集的多类别问题设置下进行了评估,用于检测流量类别。两种深度学习模型包括标准前馈深度神经网络(DNN)和双向长短期记忆(BLSTM)的性能进行了评估,并且两者在所有流量类别上都以准确率、精确率、召回率和F1分数方面取得了可喜的结果。
arXiv:2504.18793v1 Announce Type: cross
摘要:AI驱动应用的快速采用需要高性能、可扩展且高效的云数据库解决方案,传统架构在应对需要实时数据访问、向量搜索和低延迟查询的AI驱动工作负载时往往捉襟见肘。本文探讨了云原生数据库如何通过利用如向量数据库(pgvector)、图数据库(AWS Neptune)、NoSQL存储(Amazon DocumentDB、DynamoDB)以及关系型云数据库(Aurora MySQL和PostgreSQL)等特定构建技术,来支持AI驱动的应用程序。文章介绍了将AI工作负载与云数据库集成的体系结构模式,包括使用大规模语言模型(LLM)的检索增强生成(RAG)[1]、实时数据管道、基于AI的查询优化以及基于嵌入的搜索。性能基准测试、可扩展性考虑和成本高效策略被评估,以指导AI增强型应用的设计。来自医疗保健、金融和客户体验等行业的真实案例研究表明,企业在利用云数据库增强AI能力的同时,确保企业安全、治理和遵守企业及监管标准的情况。通过提供AI与云数据库集成的全面分析,本文为研究人员、架构师和企业提供了一本实用指南,以构建在云环境中优化性能、可扩展性和成本效益的下一代AI应用。
arXiv:2503.02910v3 宣告类型: 交叉
摘要:气体泄漏具有重大隐患,需要采取预防措施。传统上,人类检查已被用于检测,这是一个缓慢且耗时的过程。最近的研究已将机器学习技术应用于此问题,但仍然缺乏高质量的公开可用数据集。本文介绍了一个合成数据集 SimGas,该数据集包含多样的背景、干扰前景对象、多样的泄漏位置以及精确的分割标注。我们提出了一种零样本方法,该方法结合了背景减除、零样本对象检测、过滤和分割,以利用此数据集。实验结果表明,我们提出的方法在基于背景减除和零样本对象检测加分割的基本方法上显著优于,达到了69%的IoU。我们还对各种提示配置和阈值设置进行了分析,以提供对我们方法性能的更深入了解。最后,由于缺乏真实地面truth,我们在 GasVid 上进行了定性测试,并在真实世界数据集上取得了不错的结果。数据集、代码和完整的定性结果可在 https://github.com/weathon/Lang-Gas 获取。
arXiv:2505.02829v1 宣告类型: 新
摘要: 分割模型可以在图像中识别预定义的一组对象。然而,能够根据暗示多个感兴趣对象的复杂用户查询进行推理的模型仍然处于初级阶段。最近对推理分割的研究——从复杂隐含查询文本生成分割掩码——表明,视觉语言模型可以在开放域中运行并产生合理的输出。然而,我们的实验表明,这类模型在处理复杂的遥感图像时存在困难。在本文中,我们介绍了LISAt,这是一种视觉语言模型,旨在描述复杂的遥感场景,回答关于这些场景的问题,并分割感兴趣的对象。我们使用一个名为GRES的新编排的地理空间推理分割数据集对LISAt进行训练,该数据集包含9205张图像中的27,615个注释,以及一个包含超过100万对多模态问题和答案的预训练数据集PreGRES。LISAt在遥感描述任务上比现有的地理空间基础模型RS-GPT4V在BLEU-4指标上超过了10.04%,并在推理分割任务上比最先进的开放域模型超过了143.36%(gIoU)。我们的模型、数据集和代码可在https://lisat-bair.github.io/LISAt/获取。
arXiv:2505.02828v1 宣布类型: 新闻
摘要: 可解释的人工智能(XAI)已成为可信赖人工智能的核心支柱,并旨在为天生不透明的复杂模型带来透明度。尽管在模型中整合解释带来了诸多益处,但提供这些额外信息给最终用户时的隐私担忧问题迫在眉睫。本文通过范围审查现有的文献来探讨隐私与可解释性之间的冲突细节。利用范围审查的标准方法,从2019年1月到2024年12月发布的1,943项研究中提取了57篇文章。该审查提出了3个研究问题,以便读者更好地了解这一话题:(1)在人工智能系统中发布解释的隐私风险是什么?(2)研究人员目前采用了哪些方法来实现XAI系统的隐私保护?(3)什么是隐私保护的解释?基于从选定的研究中综合的知识,我们对XAI中的隐私风险和保护方法进行了分类,并提出了隐私保护解释的特征,以帮助研究人员和实践者理解符合隐私要求的XAI的需求。最后,我们指出了在平衡隐私与其他系统需求时面临的挑战,并提供了实现隐私保护XAI的建议。我们期望这篇综述能够揭示隐私与解释性之间的复杂关系,这两者都是可信赖人工智能的基本原则。
arXiv:2505.02820v1 宣告类型: 新
摘要:代理主要是通过任务成功率指标进行评估和优化的,这些指标是粗略的,依赖于专家的手动设计,并且无法奖励中间出现的行为。我们提出了AutoLibra,这是一种代理评估框架,能够将开放性的人类反馈,例如,“如果你发现按钮被禁用了,就不要再点击它了”,或“这个代理过于自主,以至于自己决定做什么”,转化为评估代理轨迹中细微行为的指标。AutoLibra 通过将反馈与代理行为关联,聚类相似的正向和负向行为,并创建具有清晰定义和具体示例的具体指标,这些指标可以用于提示LLM作为评估工具。我们还提出了两个元指标来评估一组(诱导)指标与开放反馈的一致性:“覆盖率”和“冗余度”。通过优化这些元指标,我们实验证明了AutoLibra能够诱导比之前代理评估基准中提出的具体的代理评估指标更多的指标,并且能够发现新的度量标准来分析代理。我们还介绍了AutoLibra在代理改进中的两个应用:首先,我们展示了AutoLibra诱导的指标相对于多种文本游戏任务的成功率在广泛的范围中作为更好的提示工程目标,与基线相比,代理性能平均提高了20% 。其次,我们展示了AutoLibra可以迭代性选择高质量的微调数据以供Web导航代理使用。我们的结果表明,AutoLibra是一个强大的任务无关工具,可用于评估和改进语言代理。
arXiv:2505.02811v1 声明类型: 新
摘要: 语言检索增强生成 (RAG) 已经展示了增强语言模型知识和减少 AI 生成幻觉的强大能力,推动了其广泛应用。然而,需要多轮检索的复杂任务仍然具有挑战性,早期尝试往往过于乐观,缺乏良好的自我怀疑感。当前的多轮 RAG 系统可能在已经检索到足够信息后仍然继续搜索,或者在没有足够信息或知识的情况下提供错误的答案。现有的解决方案要么需要大量的昂贵的人工标注监督数据,要么导致表现不佳。
本文旨在通过引入新的框架 **SIM-RAG** 来解决这些限制,以显式地增强 RAG 系统的自我意识和多轮检索能力。为了训练 SIM-RAG,我们首先让 RAG 系统自我练习多轮检索,通过增加中间内心推理步骤来扩展现有的问答对,生成合成训练数据。对于每一对,系统可能会探索多种检索路径,如果它们达到正确答案则被标记为成功,否则标记为失败。使用这种数据,我们训练了一个轻量级的信息充分性评论者。在推理时,评论者评估 RAG 系统在每一轮是否检索到了足够信息,通过上下文强化学习指导检索决策,提高系统级别的自我意识。
跨多个知名的 RAG 基准实验表明,SIM-RAG 是一个有效的多轮 RAG 解决方案。此外,该框架具有系统效率,为其添加了一个轻量级组件,而无需对现有大语言模型或搜索引擎进行修改,同时具有数据效率,无需昂贵的人工标注中间检索过程监督数据。
arXiv:2505.02781v1 宣告类型: 新
摘要: 在公共卫生等众多科学领域中,理解和识别控制直接效应 (CDEs) 是至关重要的。尽管现有的方法可以从因果有向无环图 (DAGs) 中识别这些效应,但在实践中,真实的底层结构往往是未知的。本质图,由相同的 d-分离集合定义的 DAGs 的马尔可夫等价类,提供了一种更加实用和现实的选择。然而,学习整个本质图是计算密集型的,通常依赖于强烈且难以验证的假设。在本文中,我们定义了一个相对于目标变量的局部图类,这些图共享一个特定的 d-分离子集,并引入了这种类的图形表示,称为局部本质图 (LEG)。然后,我们提出了 LocPC,这是一种新颖的算法,通过仅使用局部条件独立性检验从观测分布中恢复 LEG。在此基础上,我们提出了 LocPC-CDE 算法,该算法发现足以识别 CDE 的 LEG 的部分,从而避免检索完整本质图的需要。与全局方法相比,我们的算法需要较少的条件独立性检验,并且在弱假设下运行,同时保持理论保证。
arXiv:2505.02766v1 宣告类型: 新闻
摘要: 引导生物系统向所需状态转变,如形态发生结果,仍然是一个具有深远医学和合成生物学意义的基本挑战。虽然大型语言模型(LLMs)使自然语言成为AI系统中可解释控制的接口,但它们在引导生物或细胞动力学方面仍大多未被探索。
在这项工作中,我们提出了一条功能性流程,能够将自然语言提示转换为能够引导模拟细胞集体的空间向量场。我们的方法结合了大型语言模型与可演化神经控制器(Prompt-to-Intervention,或P2I),通过进化策略优化以生成诸如聚类或分散等行为,在模拟的2D环境中。
我们证明,即使在受限词汇量和简化细胞模型的情况下,演化而来的P2I网络也能成功地将细胞动力学与用户通过自然语言定义的目标对齐。这项工作提供了一个从语言输入到模拟类似生物电的干预再到行为输出的完整循环,为未来的自然语言驱动细胞控制系统奠定了基础。