arXiv 论文列表

作者: Mattia Scarpa, Francesco Pase, Ruggero Carli, Mattia Bruschetta, Franscesco Toso

arXiv:2504.00133v1 跨类型公告摘要：电力电子的数字孪生需要准确的功率损耗，而在实际应用中直接测量这些功率损耗往往是不现实或不可能的。本文提出了一种新颖的混合框架，将基于物理的热建模与数据驱动技术相结合，仅通过温度测量准确地识别和修正功率损耗。我们的方法利用分层架构，其中神经网络通过回传传递通过降阶热模型来学习修正标准功率损耗模型的输出。我们探索了两种神经网络架构，即自助前馈网络和循环神经网络，证明了自助前馈方法实现了更高的性能，同时保持了实时应用的计算效率。在连接之间，我们包含了归一化策略和基于物理的训练损失函数，以保持稳定性并确保物理一致性。实验结果表明，与传统基于物理的方法相比，我们的混合模型在存在热模型不确定性的情况下，既减少了温度估计误差（从7.2±6.8°C降至0.3±0.3°C），又减少了功率损耗预测误差（从5.4±6.6W降至0.2±0.3W）。该方法允许我们在没有直接测量的情况下准确估计功率损耗，特别适用于由于成本和物理限制而受到传感器放置阻碍的实时工业应用。

发布时间: 4/2/2025

查看原文

Times2D：多周期分解和导数映射的一般时间序列预测

作者: Reza Nematirad, Anil Pahwa, Balasubramaniam Natarajan

arXiv:2504.00118v1 交叉类型公告摘要：时间序列预测在多个领域如能源管理、交通规划、金融市场、气象学和医学中具有重要的应用。然而，实时序列数据通常表现出复杂的时态变异性以及尖锐波动，这给时间序列预测带来了较大的挑战。以往依赖于一维时间序列表示的模型通常难以处理复杂的时态变化。为了应对一维时间序列的局限性，本研究引入了Times2D方法，将一维时间序列转换为二维空间。Times2D由三个主要部分组成：首先，一个周期分解块（PDB），它通过将时间序列转换到频域中的2D张量来捕获同一周期内的时态变化和不同周期之间的时态变化。其次，首次和第二次导数热图（FSDH）分别捕获尖锐变化和转折点。最后，聚合预测块（AFB）整合PDB和FSDH的输出张量，以实现准确的预测。这种二维变换使得能够利用二维卷积操作有效地捕捉时间序列的长期和短期特征。在文献中大规模数据的综合实验结果表明，提出的Times2D模型在短期和长期预测方面均实现了最先进的性能。代码可在以下仓库中获得：https://github.com/Tims2D/Times2D。

发布时间: 4/2/2025

查看原文

评估LLM中的代码理解能力

作者: Cosimo Laneve, Alvise Span\`o, Dalila Ressi, Sabina Rossi, Michele Bugliesi

arXiv:2504.00065v1 交叉类型: 摘要: 我们对大型语言模型在代码理解方面的表现进行了实证评估，这些模型与保留语义的非平凡程序变换（如复制传播或常量折叠）相关。我们的研究结果表明，在不提供上下文的情况下，LLM在约41%的情况下无法判断语义等价性；而在提供简单通用上下文的情况下，这一比例降至29%。为了提高准确性，我们建议将LLM与代码优化工具集成，以增强训练并促进更稳健的程序理解。

发布时间: 4/2/2025

查看原文

评估大型语言模型在妇产科病史采集中的可行性和准确性

作者: Dou Liu, Ying Long, Sophia Zuoqiu, Tian Tang, Rong Yin

arXiv:2504.00061v1 交叉类型：cross 摘要：在预诊断环境中，有效的医患沟通至关重要，特别是在不孕不育等复杂和敏感的医疗领域尤为重要。然而，这种沟通耗费大量时间，因此使得诊所的工作流程变得不那么高效。近期大型语言模型（LLMs）的进展可能为自动化病史采集并提高诊断准确性提供解决方案。本研究评估了LLMs在不孕不育病例中执行这些任务的可行性和性能。一个基于AI的对话系统使用ChatGPT-4o和ChatGPT-4o-mini模拟了医患互动。总共处理了70个真实的不孕不育病例，生成了420份诊断历史。通过对模型性能的评估，包括F1分数、鉴别诊断（DDs）准确性以及不孕类型判断（ITJ）准确性。ChatGPT-4o-mini在信息提取准确性方面优于ChatGPT-4o（F1分数：0.9258 vs. 0.9029，p = 0.045，d = 0.244），并在医学病史采集方面的完整性更高（97.58% vs. 77.11%），表明ChatGPT-4o-mini在提取详细患者信息方面更有效，这是提高诊断准确性的关键。相比之下，ChatGPT-4o在鉴别诊断准确性方面略胜一筹（2.0524 vs. 2.0048，p > 0.05）。ChatGPT-4o-mini在ITJ准确性方面更高（0.6476 vs. 0.5905），但一致性较低（Cronbach's α = 0.562），表明分类可靠性存在变异性。两种模型在自动化不孕不育病史采集方面显示出较强的可行性，其中ChatGPT-4o-mini在完整性与提取准确性方面表现更优。未来的研究需要优先考虑临床场景中的专家验证、AI模型的微调以及包含不孕不育病例多样性更大的数据集。

发布时间: 4/2/2025

查看原文

CF-CAM：梯度扰动缓解与特征稳定化以实现可靠可解释性

作者: Hongjie He, Xu Pan, Yudong Yao

arXiv:2504.00060v1 宣布类型: cross 摘要：随着深度学习的不断进步，神经网络决策的不透明性仍然是一个关键挑战，限制了其在高风险领域的信任度和应用范围。类激活映射（CAM）技术已经成为了可视化模型决策的关键方法，然而现有方法面临着固有的权衡。基于梯度的CAM变体受到梯度扰动的敏感性影响，导致解释不稳定和不可靠。相反，无梯度方法减轻了梯度不稳定性，但会带来显著的计算开销和推断延迟。为了解决这些限制，我们提出了一种新颖的框架——聚类过滤类激活映射（CF-CAM），该框架重新引入了基于梯度的加权方法，同时增强了对梯度噪声的鲁棒性。CF-CAM采用层次的重要性加权策略，平衡了 discriminative 特征的保留和噪声的消除。通过基于密度的通道聚类（使用噪声数据的基于密度的空间聚类算法 DBSCAN），CF-CAM 对语义相关的特征通道进行分组，并丢弃易受噪声影响的激活。此外，集群条件下的梯度过滤利用双边滤波器精炼梯度信号，同时保持边缘感知的定位，抑制噪声的影响。实验结果表明，CF-CAM 在可解释性方面表现出优越性能，同时保持对梯度扰动的鲁棒性，优于最先进的 CAM 方法在忠实度和鲁棒性方面。通过有效地减轻梯度不稳定性，而无需额外的计算成本，CF-CAM 为在医疗诊断和自动驾驶等关键应用中增强深度神经网络的可解释性提供了一个可靠解决方案。

发布时间: 4/2/2025

查看原文

GAL-MAD：基于图注意网络的可解释微服务应用异常检测方法

作者: Lahiru Akmeemana, Chamodya Attanayake, Husni Faiz, Sandareka Wickramanayake

arXiv:2504.00058v1 声明类型: cross 摘要：微服务的转变革新了软件架构，提供了增强的可扩展性和模块化。然而，微服务的分布式和动态性质引入了确保系统可靠性的复杂性，使得异常检测对于维护性能和功能变得至关重要。源自网络和性能问题的异常必须迅速被识别和解决。现有的异常检测技术往往依赖于统计模型或机器学习方法，这些方法在处理微服务应用程序中固有的高维和互相关数据时表现出局限性。当前的技术和可用的数据集主要集中在系统跟踪和日志上，限制了它们支持高级检测模型的能力。本文通过引入使用开源RobotShop微服务应用生成的RS-Anomic数据集来弥补这些差距。该数据集在正常和异常条件下捕捉多变量性能指标和响应时间，涵盖了十种类型的异常。我们提出了一种名为Graph Attention和LSTM基于微服务异常检测（GAL-MAD）的新颖异常检测模型，通过结合Graph Attention和长短期记忆架构来捕捉微服务中的空间和时间依赖性。我们利用SHAP值来定位异常服务并识别根本原因，以增强可解释性。实验结果表明，GAL-MAD在RS-Anomic数据集上的表现优于最先进的模型，在不同异常率下实现更高的准确性和召回率。解释提供了关于服务异常的具体洞察，有助于系统管理员。

发布时间: 4/2/2025

查看原文

将大型语言模型与人类专业知识集成以在电子健康记录中进行疾病检测

作者: Jie Pan, Seungwon Lee, Cheligeer Cheligeer, Elliot A. Martin, Kiarash Riazi, Hude Quan, Na Li

arXiv:2504.00053v1 类型: cross 摘要: 目的：电子健康记录（EHR）广泛用于补充基于行政数据的疾病监测和医疗服务绩效评估。从EHR中定义疾病条件耗时且需要大量的手动标注疾病结果。本研究开发了一种基于先进大语言模型的有效策略，用于从EHR临床笔记中识别多个条件。方法：我们在2015年将加拿大艾伯塔省的一个心脏注册队列与EHR系统进行了链接。我们开发了一条生产线，利用生成性大语言模型（LLM）通过基于特定诊断、治疗管理以及临床指南的提示来分析、理解和解释EHR笔记。该生产线被应用于检测急性心肌梗死（AMI）、糖尿病和高血压。性能与临床验证诊断作为参考标准进行了比较，并与广泛采用的国际疾病分类（ICD）编码方法进行了比较。结果：研究队列包括3,088名患者和551,095份临床笔记。AMI、糖尿病和高血压的患病率分别为55.4%、27.7%和65.9%。基于LLM的生产线在检测条件方面的性能不同：AMI的敏感性为88%，特异性为63%，阳性预测值（PPV）为77%；糖尿病的敏感性为91%，特异性为86%，PPV为71%；高血压的敏感性为94%，特异性为32%，PPV为72%。与ICD编码相比，基于LLM的方法在所有条件下显示出改善的敏感性和阴性预测值。通过基于LLM和参考标准检测的病例的月度百分比趋势显示一致的模式。

发布时间: 4/2/2025

查看原文

连写Transformer

作者: Sam Greydanus, Zachary Wimpee

arXiv:2504.00051v1 宣告类型: cross 摘要: 在标记化文本、音频和图像上训练的变换器可以生成高质量的自回归样本。但笔迹数据，表示为笔坐标序列，仍然未被充分探索。我们介绍了一种新颖的标记化方案，该方案将笔画偏移转换为极坐标，将其离散化成区间，然后将其转换为训练标准GPT模型的标记序列。这使我们能够在不使用任何专门的架构（例如混合密度网络或Graves 2014年的自我推进ASCII注意力头部）的情况下捕捉复杂的笔画分布。仅使用3,500个手写单词和少量简单的数据增强，我们就能训练出一个能够生成逼真的连笔手写的手写模型。我们的方法比之前的基于RNN的方法更简单、更高效。

发布时间: 4/2/2025

查看原文

JudgeLRM：大型推理模型作为裁判

作者: Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He

arXiv:2504.00050v1 评价类型: cross 摘要：大型语言模型（LLMs）作为评估工具的兴起为替代人类注释提供了可扩展的替代方案，但在需要复杂推理的领域，现有的监督微调（SFT）方法往往收效甚微。在这项工作中，我们研究了LLM法官是否真正受益于增强的推理能力。通过对各种评估任务中推理需求的详细分析，我们揭示了SFT性能收益与复杂推理需求样本的比例之间存在负相关关系，突显了在这些情况下SFT的局限性。为了解决这一问题，我们提出了JudgeLRM，这一系列以评估为导向的LLM模型，它们是通过评判者导向、结果驱动的强化学习（RL）进行训练的。JudgeLRM模型在所有测试中均优于SFT微调的模型以及最先进的推理模型。值得注意的是，JudgeLRM-3B超过了GPT-4，并且在F1分数上，JudgeLRM-7B比DeepSeek-R1高出了2.79%，特别是在需要深层推理的法官任务中表现尤为出色。

发布时间: 4/2/2025

查看原文

Distill-C：通过LLM强化定制化的NL2SQL增强版

作者: Cong Duy Vu Hoang, Gioacchino Tangari, Clemence Lanfranchi, Dalu Guo, Paul Cayet, Steve Siu, Don Dharmasiri, Yuan-Fang Li, Long Duong, Damien Hilloulin, Rhicheek Patra, Sungpack Hong, Hassan Chafi

arXiv:2504.00048v1 类型: cross 摘要：大型语言模型（LLMs）在商业应用中越来越广泛的应用，放大了对自然语言到SQL（NL2SQL）解决方案的兴趣，在这种解决方案中，高性能和效率之间存在竞争需求。特定领域的和客户的特定需求进一步使问题复杂化。为了解决这一困境，我们介绍了Distill-C，这是一种专为NL2SQL任务量身定制的蒸馏定制框架。Distill-C利用大型教师LLM通过一个稳健且可扩展的管道生成高质量的合成数据。在这些合成数据上微调较小且开源的LLM能够使其在性能上与教师模型相差一个数量级。在多个具挑战性的基准上评估，Distill-C在执行准确性上相对于三个不同LLM家族的基础模型平均提高了36%。此外，在三个内部客户基准上，Distill-C在性能上相对于基础模型提高了22.6%。我们的结果表明，Distill-C是一种有效、高性能且可推广的方法，用于部署轻量且强大的NL2SQL模型，在保持低计算成本的同时提供卓越的准确性。

发布时间: 4/2/2025

查看原文