arXiv 论文列表

作者: Seyed Mojtaba Mohasel, John Sheppard, Lindsey K. Molina, Richard R. Neptune, Shane R. Wurdeman, Corey A. Pew

arXiv:2504.07397v1 Announce Type: cross 摘要：本工作介绍了一种名为MicroNAS的自动化神经架构搜索工具，专门设计用于创建适用于内存资源有限的微控制器的优化模型。以320 KB内存的ESP32微控制器为目标平台。人工智能方面的贡献在于提出了一种新的方法，通过将目标微控制器的内存大小作为指导来优化卷积神经网络和门控循环单元架构。将内存驱动的模型优化方法与传统的两阶段方法（使用剪枝）进行比较，以展示所提出的框架的有效性。为展示MicroNAS的工程应用，开发了一个针对下肢截肢者的跌倒检测系统（FDS）作为试点研究。跌倒检测研究中的一个关键挑战是数据集的类别不平衡问题得到了解决。结果显示，MicroNAS模型在F1分数方面优于其他方法，如集成方法和H2O自动化机器学习，为实时FDS开发迈出了重要一步。使用身体穿戴传感器进行活动检测的生物力学研究人员可以采用开源代码，为限制内存的微控制器平台设计机器学习模型。

发布时间: 4/11/2025

查看原文

通过大语言模型自动化量子特征映射设计

作者: Kenya Sakka, Kosuke Mitarai, Keisuke Fujii

arXiv:2504.07396v1 Announce Type: 跨领域摘要：量子特征映射是量子机器学习的关键组成部分，它将经典数据编码为量子状态，以便利用高维希尔伯特空间的强大表达能力。尽管具有理论前景，但设计出在实践上优于经典方法的量子特征映射仍然是一个开放的挑战。在本文中，我们提出了一种自主系统，该系统使用大型语言模型自主生成、评估和改进量子特征映射。该系统由五个组成部分：生成、存储、验证、评估和审查。通过这些组成部分，系统能够迭代地改进量子特征映射。在MNIST数据集上的实验表明，该系统可以在无须人类干预的情况下成功发现和改进特征映射。生成的最佳特征映射在MNIST、Fashion-MNIST和CIFAR-10上优于现有量子基线，并且在准确率方面与经典核相竞争。我们的方法提供了一种探索数据集自适应量子特征的框架，并突显了LLM驱动自动化在量子算法设计中的潜力。

发布时间: 4/11/2025

查看原文

FAIR-SIGHT：通过同时进行规范阈值化和动态输出修正实现图像识别中的公平性保障

作者: Arya Fayyazi, Mehdi Kamal, Massoud Pedram

arXiv:2504.07395v1 Announce Type: 交叉摘要：我们提出了FAIR-SIGHT，这是一种创新的后验框架，通过结合容信预测和动态输出修复机制来确保计算机视觉系统的公平性。我们的方法计算了一个同时评估预测错误和公平性违规的公平性感知非容信分数。使用容信预测，我们建立了适应性阈值，提供严格的基于样本且与分布无关的保证。当新图片的非容信分数超过校准阈值时，FAIR-SIGHT 实施有针对性的纠正调整，例如分类中的逻辑回归调整和检测中的置信度再校准，以减少群体和个体公平性差异，而无需重新训练或访问内部模型参数。全面的理论分析验证了我们方法的误差控制和收敛特性。同时，对基准数据集的广泛实证评估表明，FAIR-SIGHT 显著减少了公平性差异，同时保持了高预测性能。

发布时间: 4/11/2025

查看原文

ClimateBench-M：一种带有简单生成方法的多模态气候数据基准

作者: Dongqi Fu, Yada Zhu, Zhining Liu, Lecheng Zheng, Xiao Lin, Zihao Li, Liri Fang, Katherine Tieu, Onkar Bhardwaj, Kommy Weldemariam, Hanghang Tong, Hendrik Hamann, Jingrui He

arXiv:2504.07394v1 类别：交叉学科摘要：气候科学研究地球气候系统的结构和动力学，并致力于理解气候变化随时间的变化，数据通常以时间序列的形式存储，记录气候特征、地理定位、时间属性等。最近，研究界对气候基准给予了很大的关注。除了最基本的天气预报任务之外，还提出了多种开创性的基准工作，扩展了模态的应用，例如针对热带气旋强度预测和即时洪水损害评估等特定领域的应用，或者以自然语言形式给出的气候声明和置信水平。为进一步推动通用人工智能在气候科学领域的开发，在本文中，我们首先贡献了一个多模态气候基准，即ClimateBench-M，该基准通过对齐来自（1）ERA5的时间序列气候数据，（2）NOAA的极端天气事件数据，以及（3）NASA HLS的卫星图像数据，统一了空间-时间粒度。其次，在每个数据模态下，我们还提出了一种简单但强大的生成方法，该方法在天气预报、雷暴警报和作物分割任务中都能产生竞争力的表现。ClimateBench-M的数据和代码已在https://github.com/iDEA-iSAIL-Lab-UIUC/ClimateBench-M 公开提供。

发布时间: 4/11/2025

查看原文

任务电路量化：利用知识局部化和可解释性进行压缩

作者: Hanqi Xiao, Yi-Lin Sung, Elias Stengel-Eskin, Mohit Bansal

arXiv:2504.07389v1 交叉类型: cross 摘要: 训练后量化(PTQ)通过将全精度权重映射为低位权重来减少模型的内存占用，而无需昂贵的重新训练，但在2-到3位设置中可能会降低其下游性能。我们开发了一种新的混合精度PTQ方法，即任务电路量化(TaCQ)，其灵感来源于自动电路发现，直接根据特定权重电路调整量化过程——我们定义为与下游任务性能相关的权重集合。这些权重保留为16位权重，而其他权重则被量化，从而在保持性能的同时仅增加轻微的内存成本。具体而言，TaCQ 将未量化模型的权重与均匀量化模型进行对比，以估计量化对权重预期变化，并利用梯度信息预测任务性能的结果影响，从而允许我们保留特定任务的权重。我们在通用数据和任务特定数据上比较了基于TaCQ的量化与现有混合精度量化方法。在Llama-3和Qwen2.5的QA、数学推理和文本到SQL任务中，我们发现当使用相同的校准数据和较低的权重预算时，TaCQ 的表现优于基准方法，尤其是在2位和3位的情况下取得了重大改进。使用仅有3.1位，我们能够恢复Llama-3-8B-Instruct未量化16位MMLU性能的96%，相对于SPQR获得5.25%的绝对性能提升。同时，我们在2位条件下观察到相对于现有方法的持续大幅改进，平均提升14.74%，超过最强基准SliM-LLM。此外，我们发现不依赖于特定任务时也观察到7.20%的提升，显示出TaCQ识别重要权重的能力并不局限于任务条件设置。

发布时间: 4/11/2025

查看原文

非凸-非凹函数的最小-最大优化：随机零阶外梯度算法

作者: Amir Ali Farzin, Yuen Man Pun, Philipp Braun, Antoine Lesage-landry, Youssef Diouane, Iman Shames

arXiv:2504.07388v1 Announce Type: cross 摘要：本研究探讨了在考虑可能具有非凸-非凹（NC-NC）目标函数的最小-最大优化问题时，随机高斯平滑零阶外梯度（ZO-EG）方案的表现。我们考虑了无约束和有约束、可微和非可微的情况。从变分不等式的视角讨论最小-最大问题。对于无约束问题，我们建立了ZO-EG算法收敛到NC-NC目标函数的$\epsilon$-稳定点的邻域，并在方差减少方案下控制其半径及其复杂性。对于有约束问题，引入新的邻近变分不等式的概念，并给出满足这一性质的函数示例。此外，我们证明了与无约束情况类似的有约束问题的结果。对于非可微情况，我们证明了ZO-EG算法收敛到平滑后目标函数的$\epsilon$-稳定点的邻域，该邻域的半径可以被控制，这可以与原始目标函数的（$\delta, \epsilon$）-Goldstein稳定点相关。

发布时间: 4/11/2025

查看原文

TALE: 一种工具增强框架，用于无参考评估大规模语言模型

作者: Sher Badshah, Ali Emami, Hassan Sajjad

arXiv:2504.07385v1 评估类型: cross 摘要: 随着大型语言模型（LLMs）越来越多地集成到现实世界中的自主应用中，依赖静态的先标注参考进行评估在成本、可扩展性和完整性方面提出了显著挑战。我们提出了工具增强的LLM评估（TALE）框架，该框架能够在没有预定ground-truth答案的情况下评估LLM的输出。与传统的将结果与固定参考进行比较或仅仅依赖于LLM作为裁判的度量方法不同，TALE采用一个具有工具访问能力的代理，该代理可以主动检索和合成外部证据。TALE通过迭代生成网络查询、收集信息、总结发现并通过反思改进后续搜索。通过放弃静态参考，TALE与现实世界场景中常见的自由形式问答任务相一致。在多个自由形式问答基准上的实验结果表明，TALE不仅在衡量响应准确性方面优于基于固定参考的标准度量方法，还与人类评估达到了实质性的至接近完美的共识。TALE在无需依赖静态参考的情况下，增强了LLM评估在现实世界动态场景中的可靠性。

发布时间: 4/11/2025

查看原文

PROPEL：大型供应链规划的监督与强化学习方法

作者: Vahid Eghbal Akhlaghi, Reza Zandehshahvar, Pascal Van Hentenryck

arXiv:2504.07383v1 Announce Type: cross 摘要：本文探讨了如何将机器学习（ML）和优化相结合，以解决大规模的供应链计划（SCP）优化问题。这些问题可以被表述为混合整数规划（MIP）模型，包含整数（非二进制）变量和连续变量，以及流动平衡和容量约束。这给现有的结合ML和优化的方法带来了根本性的挑战，这些方法主要关注于二进制MIP问题和图问题。为了解决这些问题，本文提出了一种新的框架PROPEL，该框架结合了优化与监督学习和深度强化学习（DRL），显著减少了搜索空间的大小。PROPEL 使用监督学习，不是为了预测所有整数变量的值，而是为了识别在最优解中被固定为零的变量，利用SCP应用的结构。PROPEL 包括一个DRL组件，在监督学习步骤未能产生具有所需最优性容差的解时，选择哪些固定为零的变量需要放松以提高解的质量。PROPEL 已应用于具有数百万变量的工业供应链计划优化。计算结果表明，在求解时间和质量上取得了显著改进，包括将原始积分减少了60%，原始间隙减少了88%，以及最高分别提高了13.57倍和15.92倍。

发布时间: 4/11/2025

查看原文

表示meet优化：用于系统药理学中的灰箱发现训练PINNs和PIKANs

作者: Nazanin Ahmadi Daryakenari, Khemraj Shukla, George Em Karniadakis

arXiv:2504.07379v1 宣布类型：交叉摘要：作为原始基于多层感知机的物理信息神经网络（PINNs）的有效替代品，物理信息柯尔莫哥洛夫-阿诺尔德网络（PIKANs）引起了人们的关注。两者都可以解决逆问题并促进灰盒系统识别。然而，它们在准确性和速度方面的性能表现仍缺乏全面的理解。特别是，我们介绍了一种基于Chebyshev多项式的改进PIKAN架构——tanh-cPIKAN，它可以增强性能。我们随后对选择优化器、表示形式和训练配置如何影响PINNs和PIKANs在药代动力学建模中的性能进行了系统的调查。我们对各种一阶、二阶和混合优化器进行了广泛的基准测试，包括各种学习率调度器。我们使用新的Optax库，在不良提出、非唯一性和数据稀疏条件下确定了学习灰盒模型最有效的组合。我们探讨了模型架构（MLP vs. KAN）、数值精度（单精度 vs. 双精度）、二阶方法的热启动阶段需求以及初始学习率对敏感性的影响。我们还评估了优化器在更大模型中的可扩展性，并分析了JAX在计算效率和数值准确性方面的权衡。通过两个代表性的药代动力学案例研究——药代动力学模型和化疗药物响应模型——我们提供了选择优化器和表示模型/架构的实用指南，以实现稳健和高效的灰盒发现。我们的发现为改进生物医学应用中物理信息网络的训练提供了可操作的见解，并且超越了生物医学领域。

发布时间: 4/11/2025

查看原文

ChronoFormer：考虑时间的变换器架构用于结构化临床事件建模

作者: Yuanyun Zhang, Shi Li

arXiv:2504.07373v1 通知类型: 交叉摘要：电子健康记录(EHR)数据的时间复杂性为使用机器学习预测临床结果带来了重大挑战。本文提出了ChronoFormer，这是一种创新的基于变压器的架构，专门设计用于编码和利用纵向患者数据中的时间依赖性。ChronoFormer结合了时间嵌入、层次注意力机制和领域特定的遮罩技术。在死亡预测、再入院预测和长期共病发病的三个基准任务上进行的详尽实验表明，ChronoFormer在当前最先进的方法上取得了显著改进。此外，对注意力模式的详细分析强调了ChronoFormer捕捉具有临床意义的长期时间关系的能力。

发布时间: 4/11/2025

查看原文