arXiv:2502.05345v1 类别:交叉学科
摘要:在现代应用特定集成电路(ASICs)中,准确估计电压降低(IR下降)由于近年来技术节点的复杂性和晶体管密度的增加,变得高度耗时和资源密集。为了解决这一挑战,我们调查了机器学习(ML)技术,包括极端梯度提升(XGBoost)、卷积神经网络(CNN)和图神经网络(GNN),如何有助于减少电路中IR下降的计算努力并隐含地减少所需的时间。传统方法,包括商业工具,需要花费相当长的时间来生成准确的近似值,尤其是对于具有众多晶体管的复杂设计。另一方面,ML算法被探索作为另一种快速且精确估计IR下降的解决方案,但所需时间明显更少。我们的方法利用ASICs的电气、时序和物理特性来训练ML模型,确保在不同设计中具有最小的调整下的适应性。实验结果强调了ML模型在预测速度方面优于商业工具的优势。特别地,GNN在电压下降估计中表现出色,预测误差最小。GNN的引入标志着准确IR下降预测的一个突破性进展。本研究展示了ML算法在精确估计IR下降和优化ASIC签发方面的有效性。利用ML模型可以加快预测速度,减少计算时间,提高能源效率,从而通过优化功率电路减少环境影响。
arXiv:2502.05344v1 宣告类型: 交叉
摘要:将自动化形式化验证扩展到实际项目中需要解决跨模块依赖和全局上下文的问题,而现有的以函数为中心的方法忽视了这些问题。我们引入了RagVerus框架,该框架结合了检索增强生成与上下文感知提示,以自动化多模块仓库的证明合成。在我们新颖的RepoVBench基准测试中,该基准测试是首个针对Verus的仓库级数据集,包含383个证明完成任务,RagVerus实现了27%的相对改进。在受约束的语言模型预算下,RagVerus将现有基准的证明通过率提高三倍,证明了其可扩展性和样本效率的验证能力。
arXiv:2502.05330v1 公告类型: cross
摘要:在计算机断层扫描血管造影(CTA)扫描中对主动脉进行多类分割对于诊断和计划主动脉夹层患者的复杂血管内治疗至关重要。然而,现有的方法将主动脉分割简化为二元问题,限制了它们在不同分支和区域测量直径的能力。此外,目前没有公开的数据集可以支持多类主动脉分割方法的发展。为了解决这一问题,我们组织了AortaSeg24 MICCAI挑战,并引入了第一个标注了23个临床相关主动脉分支和区域的100个CTA体积数据集。该数据集旨在促进模型的开发和验证。挑战吸引了来自世界各地的121支队伍参与,参赛者利用最先进的框架如nnU-Net,并探索了新型技术,包括级联模型、数据增强策略和自定义损失函数。我们使用Dice相似性系数(DSC)和归一化表面距离(NSD)评估了提交的算法,突出了前五名表现最好的团队所采用的方法。本文介绍了挑战设计、数据集细节、评估指标以及对表现最好的算法的深入分析。标注数据集、评估代码和领先的算法实现均已公开,以支持进一步的研究。所有资源均可通过https://aortaseg24.grand-challenge.org访问。
arXiv:2502.05312v1 交叉类型公告
摘要:合成数据生成被认为是一种提高神经语法纠错(GEC)系统质量的方法。然而,当前的方法往往缺乏多样性,或者过于简单,无法生成人类广泛做出的语法错误,尤其是对阿拉伯语这样的低资源语言尤为重要。在本文中,我们将开发错误标记模型和合成数据生成模型,用于为阿拉伯语语法纠错创建大量合成数据集。在错误标记模型中,使用DeBERTav3模型将正确句子归类为多种错误类型。Arabic Error Type Annotation tool (ARETA) 用于指导错误标记模型中的多标签分类任务,每个句子被分类为26个错误标签。合成数据生成模型是一个基于反向翻译的模型,它通过在由ARAT5模型生成的正确句子之前添加错误标签来生成错误句子。在QALB-14和QALB-15测试集上,错误标记模型实现了94.42%的F1分数,这是在干净句子中识别错误标签的最新技术。通过我们对语法错误纠正的语义数据训练,我们在QALB-14测试集上取得了新的最新技术水平,F1-Score为79.36%。我们使用合成数据生成模型生成了30,219,310对合成句子对。
arXiv:2502.05310v1 类型: cross
摘要:大型语言模型仅凭少数几个示例就证明了在广泛任务中表现出乎意料的有效性。然而,其可靠性不足和模块性差限制了它们解决需要多步推理的大规模问题的能力。为响应这一挑战,研究人员提出了利用领域特定知识的高级流水线,将较小的提示串联起来,提供中间反馈,并通过搜索提高性能。然而,编写、调整、维护和改进此类流水线当前的复杂性限制了它们的复杂性。我们提出了占卜式编程,这是一种构建基于LLM的应用程序的基本范式,让领域专家以程序的形式表达高层问题解决策略,其中包含未解决的选择点。这些选择点在运行时由LLM解决,LLM从用户提供的正确和错误决策示例中进行泛化。一个占卜式程序由三个正交组件组成:一个策略,其包含一个包含选择点的非确定性程序,这些选择点可以在运行时被转化为搜索树;一个策略,指定了如何借助LLM占卜以这种方式导航该树;以及一组演示,描述了不同问题实例中成功的和不成功的搜索树导航场景。每个组件都用专用的编程语言表达,并且可以独立改进或替换。我们解决了模块化组合占卜式程序和在这些组件演化过程中保持其一致性的关键编程语言设计挑战。
arXiv:2502.05300v1 交叉公告类型:交叉学科
摘要:现代大型AI系统的学习动态是分层的,经常表现出类似于物理系统中观察到的相转变的突然且定性的转变。虽然这些现象有望揭示神经网络和语言模型背后的机制,但目前的理论仍显破碎,仅针对特定案例进行了解释。在本文中,我们提出参数对称性的破缺和恢复是这些行为背后的统一机制。我们综合了先前的观察,并展示了这一机制如何解释神经网络中的三个不同层次:学习动态、模型复杂性和表示形成。通过将这些层次联系起来,我们强调了对称性——这是理论物理学的基石——可能是现代AI中的一个潜在的基本原则。
arXiv:2502.05292v1 宣告类型: cross
摘要:无人机或无人驾驶航空器传统上用于军事任务、战争和间谍活动。然而,由于涉及安全、检测、运输、研究目的和娱乐飞行的多种工业应用,无人机的使用量显著增加。这种在公共空间中无人机活动的增加量要求采取监管措施以保护隐私和安全。因此,检测非法无人机活动,如边界的侵犯,变得势在必行。这类检测任务通常会被自动化,由训练有素的深度学习模型完成。本文基于先前的工作,扩展了一个已发布开源数据集,并提供了该数据集的描述和分析。该数据集被用于训练YOLOv7深度学习模型及其一些较小的变体,并提供了相关结果。由于检测模型基于单张图像输入,因此使用了基于简单卷积相关的方法来减少视频中的检测缺失,并提高跟踪性能。最后,整个无人机检测系统进行了总结。
arXiv:2502.05282v1 宣布类型: cross
摘要: 密集对比表示学习(DCRL)极大地提高了图像密集预测任务的学习效率,展示了其在降低医疗图像采集和密集标注成本方面的巨大潜力。然而,医疗图像的特性导致了不可靠对应关系的发现,这在DCRL中带来了大规模误匹配和正匹配(FP&N)对的开放问题。在本文中,我们提出了一种GEoMetric vIsual deNse sImilarity (GEMINI)学习方法,该方法嵌入了同胚先验到DCRL中,并能够进行可靠的对应关系发现以实现有效的密集对比。我们提出了可形变同胚学习(DHL),该方法建模了医疗图像的同胚性,并学习估计一个形变量映射,以在拓扑不变性的条件下预测像素的对应关系。它有效减少了配对搜索空间,并通过梯度驱动隐式和软学习负配对。我们还在特征中提取语义信息来构建几何语义相似性(GSS),以衡量对应关系学习的对齐程度。这将促进形变的学习效率和性能,可靠地构造正面配对。我们在实验中在两种典型的表示学习任务上实现了两个实用的变体。我们在这七个数据集上的有希望的结果优于现有方法,显示了我们在各个方面都具有明显的优势。我们将在伴侣链接上发布我们的代码:https://github.com/YutingHe-list/GEMINI。
arXiv:2502.05264v1 宣布类型: cross
摘要:量子计算广泛认为是机器学习最有前途的实际应用之一。现有的量子机器学习方案通常采用一种依赖于模型参数梯度的量子-经典混合方法。这种方法缺乏证明的全局最小值收敛性,在量子学习模型扩展时将变得不可行。在这里,我们引入了量子自动化学习,其中不涉及变分参数,训练过程被转换为量子态准备。具体来说,我们将训练数据编码在酉操作中,并在这些单元及其逆单元之间,以目标导向的扰动迭代演化一个随机初始态,以提高预测准确性。在合理的假设下,我们严格证明了这种演变以指数形式收敛到与损失函数全局最小值对应的所需状态。我们展示了这一训练过程可以从虚时间演化准备量子态的角度来理解,在这种演化中,编码数据的酉操作与目标导向的扰动会自动训练量子学习模型。进一步证明了量子自动化学习范式具有良好的泛化能力,泛化误差上界为希尔伯特空间维度对数函数与训练样本数量之比。此外,我们在真实图像和量子数据上进行了广泛数值模拟,以证明我们方法的有效性并验证假设。我们的结果建立了一种非传统的量子学习策略,它是无梯度的,具有可证明和可解释的训练性,这对于量子计算在机器学习场景中的大规模实际应用至关重要。
arXiv:2502.05253v1 交叉公告类型
摘要:我们提出了一种基于结果的微调框架,该框架可以在不依赖于人类定制的推理样本的情况下增强大型语言模型(LLMs)的预测能力。我们的方法利用模型自对弈生成一组多样的推理轨迹和概率预测,这些预测适用于模型知识截止日期之后能得到实际结果的一组多样性问题。然后,我们通过直接偏好优化(DPO)对模型进行微调,根据这些推理轨迹与实际结果的距离对它们进行排名。在单独的测试集上,我们的方法将Phi-4 14B和DeepSeek-R1 14B的预测准确性提高了7-10%,超过了基模型和带有随机标签的DPO微调控制模型,使其与GPT-4o等更大规模的前沿模型的预测能力相当。