arXiv:2504.16834v2 通知类型: replace-cross
摘要:准确的波高预测对于海上安全和沿海韧性至关重要,但是传统的物理模型和传统的机器学习方法在计算效率和非线性动力学建模方面存在挑战。本研究介绍了Chronos,这是首个利用大型语言模型(LLM)驱动的时间架构(Chronos)以优化波浪预报的应用。通过在西北太平洋盆地中三个战略性选择的海域的历史波浪数据上应用高级时间模式识别,我们的框架实现了多模态的改进:(1)与PatchTST基线相比,训练时间减少了14.3%,推理速度提高了2.5倍,达到0.575的均方绝对误差(MASE)单位;(2)在全面的指标中,表现出色的短期预报(1-24小时);(3)在长期预报(1-120小时)中持续保持预测优势;(4)展示了零样本能力,保持中等性能(第4/12名)与专业运营模型相比。这种增强的时间建模范式为波浪预测设立了新的标准,提供了计算效率高的解决方案,并为复杂地球物理系统建模提供了可转移的框架。
arXiv:2504.16516v2 通知类型: 替换交叉引用
摘要:视觉-语言导航(VLN)旨在使基于环境的智能代理能够遵循自然语言指令并到达真实环境中的目标地点。虽然以往的方法往往依赖于全局场景表示或对象级别特征,但这些方法不足以捕捉导航所需的跨模式的复杂交互。在本文中,我们提出了一种多级别融合与推理架构(MFRA),以增强代理在视觉观察、语言指令和导航历史方面的推理能力。具体而言,MFRA 引入了一种分层融合机制,该机制在多个模态中聚合从低级视觉线索到高级语义概念的多级别特征。我们进一步设计了一个推理模块,该模块利用融合表示通过指令引导的注意力和动态上下文整合来推断导航动作。通过选择性地捕捉和组合相关视觉、语言和时间信号,MFRA 在复杂导航场景中的决策准确性得到了提高。在包括REVERIE、R2R和SOON在内的基准VLN数据集上的大量实验表明,MFRA 的性能优于最先进的方法,验证了多级别模态融合在基于环境导航中的有效性。
arXiv:2504.16268v2 公告类型: replace-cross
摘要:在本文中,我们提出了一种基于对抗学习(OBL,Opposition-Based Learning)的新颖数据转换框架,以提高传统分类算法的性能。OBL 原本是用来加速优化任务中的收敛速度,这里将其用于生成合成的对抗样本,以丰富训练数据并改善决策边界的形成。我们探索了三种 OBL 变体:全局 OBL、类内 OBL 和局部类内 OBL,并将它们与 K-近邻(KNN)集成。在 26 个异构且高维度的数据集上进行的广泛实验表明,OBL 进阶的分类器在所有情况下都优于基础 KNN。这些结果突显了 OBL 作为轻量且强大的数据转换策略,特别是在复杂或稀疏的学习环境中提高分类性能的潜力。
arXiv:2504.16172v2 宣告类型: 替换交叉
摘要:高维偏微分方程(PDEs)在从量子化学到经济学和金融学等多个领域中都带来了显著的计算挑战。尽管科学机器学习(SciML)技术提供了近似解,但它们往往存在偏差并且忽视了关键的物理洞察。受到语言模型中推理时缩放策略的启发,我们提出了Simulation-Calibrated Scientific Machine Learning (SCaSML),这是一种通过强制执行物理定律动态细化和纠正SciML预测的物理知情框架。SCaSML 利用了量化系统误差的新物理定律,并使用基于费曼-卡克和伊尔沃-比松-李公式的蒙特卡洛求解器来动态纠正预测。数值和理论分析证实了通过计算最优推理方法提高了收敛率。我们的数值实验表明,与基本的代理模型相比,SCaSML 减少了20-50%的误差,使其成为第一个在推理过程中细化高维PDE近似解的算法。SCaSML 的代码可在 https://github.com/Francis-Fan-create/SCaSML 获取。
arXiv:2504.16005v3 宣传类型: 替换-交叉
摘要:大型语言模型(LLMs)通过简单的提示指导解决多种任务,从而彻底改变了自然语言处理。然而,它们的表现对其提示的制定高度敏感。虽然自动提示优化通过寻找最优提示来解决这一挑战,但当前的方法需要大量的LLM调用和输入标记,使得提示优化代价高昂。我们介绍了CAPO(成本意识提示优化)算法,通过整合自动机器学习技术提高提示优化的效率。CAPO是一种进化式方法,使用LLM作为操作员,结合了竞赛以节省评估次数和多目标优化来平衡性能与提示长度。它联合优化指令和少量示例,并利用任务描述以提高鲁棒性。我们在多种数据集和LLM上的广泛实验表明,在15种情况中有11种情况下,CAPO在离散提示优化方法中的性能表现优于现有最佳方法,并且性能最多可以提高21%。我们的算法即使在较小的预算下也能实现更好的性能,通过竞赛节省评估次数,并通过长度惩罚减少平均提示长度,使其既成本效益高又成本意识强。即使没有少量示例,CAPO也优于其竞争对手,并且通常对初始提示的鲁棒性更强。CAPO代表了迈向通过提高成本效率使提示优化更加强大和普及的重要一步。
arXiv:2504.14657v2 宣传类型: 替换交叉
摘要:合成电子健康记录(EHRs)提供了创建隐私保护和协调结构化数据的宝贵机会,支持医疗保健领域的众多应用。合成数据的关键优势包括精确控制数据模式、改善患者群体的公正性和代表性,以及在不担心泄露真实个体隐私的情况下共享数据集。因此,AI社区越来越多地将大型语言模型(LLMs)用于跨各种领域生成合成数据。然而,在医疗保健领域,确保合成健康记录能够可靠地在不同医院之间泛化的显著挑战一直是长期存在的问题。在这项工作中,我们评估了目前商用LLM生成合成数据的状态,并研究了生成过程的多个方面,以确定这些模型在哪些方面表现出色,在哪些方面表现不佳。我们在这项工作中的主要发现是,虽然LLMs可以可靠地为较小的特征子集生成合成健康记录,但在数据维度增加时,它们难以保持现实的数据分布和相关性,最终限制了它们在不同医院环境之间的泛化能力。
arXiv:2504.14625v2 Announce Type: 替换-交叉
摘要:大型语言模型(LLMs)已经改变了代码生成,但在硬件设计中的应用却产生了比人类设计的门计数高38%到1075%的设计。我们介绍了CircuitMind,这是一种多智能体框架,通过三大创新实现了与人类竞争的效率:语法锁定(限制生成到基本逻辑门),检索增强生成(实现知识驱动的设计),以及双奖励优化(平衡正确性和效率)。为了评估我们的方法,我们引入了TC-Bench,这是首个利用TuringComplete生态系统中的集体智慧的门级基准——这是一个拥有数十万玩家的竞争电路设计平台。实验表明,CircuitMind使55.6%的模型实现能够匹配或超越顶级人类专家的综合效率指标。最引人注目的是,我们的框架使14B Phi-4模型超越了GPT-4o mini和Gemini 2.0 Flash,达到了与顶级25%人类专家相当的效率,而无需进行专门训练。这些创新确立了一种新的硬件优化范式,协作式AI系统利用集体的人类专业知识来实现最优电路设计。我们的模型、数据和代码可在https://github.com/BUAA-CLab/CircuitMind开源。
arXiv:2504.14560v2 宣告类型: replace-cross
摘要:大型语言模型(LLMs)在Verilog代码生成方面取得了显著进展,但仍面临数据质量、推理能力和计算效率方面的挑战。本文介绍了ReasoningV,这是一种采用混合推理策略的新模型,该策略结合了训练的固有能力和动态推理适应性,用于Verilog代码生成。我们的框架引入了三种互补的创新:(1)ReasoningV-5K,一个包含5,000个功能验证实例的高质量数据集,这些实例通过多维度筛选PyraNet样本而创建,其中包括推理路径;(2)结合参数高效微调和全参数优化的两阶段训练方法,以增强推理能力;以及(3)一种动态调整推理深度的适应性推理机制,根据问题复杂性动态调整推理深度,最多可减少75%的token消耗,同时保持性能。实验结果表明,ReasoningV在VerilogEval-human上的pass@1准确率为57.8%,达到与领先商用模型(如Gemini-2.0-flash,59.5%)相当的性能,并优于之前最好的开源模型10.4个百分点。ReasoningV为推动基于AI的硬件设计自动化提供了一条更加可靠和可访问的道路,我们的模型、数据和代码可在https://github.com/BUAA-CLab/ReasoningV 获取。
arXiv:2504.14509v3 公告类型: 替换交叉
摘要:在本文中,我们介绍了DreamID,一个基于扩散的面部交换模型,实现了高水平的身份相似度、属性保留、图像保真度以及快速推理速度。与传统的面部交换训练过程不同,后者往往依赖于隐式监督并且难以达到满意的结果。DreamID 通过构建三元组身份组数据,建立了显式监督,显著提高了身份相似度和属性保留。扩散模型的迭代性在利用高效的图像空间损失函数方面带来了挑战,因为在训练过程中进行耗时的多步采样以获得生成图像是不实际的。为了解决这个问题,我们利用了加速扩散模型SD Turbo,将推理步骤减少为单次迭代,从而能够使用显式的三元组身份组监督进行高效的端到端训练。此外,我们提出了一个改进的基于扩散的模型架构,包含SwapNet、FaceNet和ID Adapter。这种稳健的架构完全释放了三元组身份组显式监督的强大功能。最后,为了进一步扩展我们的方法,在训练过程中明确修改三元组身份组数据,以微调并保留特定属性,例如眼睛和脸型。广泛实验表明,DreamID 在身份相似度、姿态和表情保留以及图像保真度等方面优于最先进的方法。总体而言,DreamID 在 512*512 分辨率下只需 0.6 秒即可实现高质量的面部交换结果,并且在复杂光照、大角度和遮挡等具有挑战性的场景中表现优异。
arXiv:2504.14300v2 更新类型: replace-cross
摘要:住宅用电数据的稀缺性可能会阻碍住宅部门的低碳化以及有效的电网规划和运行。上述挑战激发了生成合成用电数据的研究,但现有方法在扩展性、多样性和相似性方面面临限制。本文提出了基于生成对抗网络的合成住宅用电模式生成模型(RLP-GAN),这是一种新颖的弱监督GAN框架,利用超完备自编码器捕捉复杂多样的用电模式之间的依赖关系,并大规模学习户水平的数据分布。我们引入了一种模型权重选择方法来解决模式消融问题,并生成具有高度多样性的用电模式。我们开发了一种全面的评估方法,使用来自417户的真实数据来验证RLP-GAN的有效性。结果表明,RLP-GAN在捕捉时间依赖性和生成与真实数据更相似的用电模式方面优于现有模型。此外,我们已公开发布由RLP-GAN生成的合成数据集,该数据集包含一百万条合成住宅用电模式档案。