arXiv 论文列表

作者: Wei Li, Yang Zou, Christopher Ellis, Ruben Purdy, Shawn Blanton, Jos\'e M. F. Moura

arXiv:2504.05180v1 交叉类型：摘要：尽管许多 EDA 任务已经涉及基于图的数据，现有的 EDA LLM 主要要么将图表示为顺序文本，要么简单地忽略可能有益的数据流图等结构化数据。最近的研究发现，当将图表示为顺序文本时，LLM 的性能会受到影响，在使用额外的图信息时性能显著提升。为了解决这些挑战，我们介绍了一种名为 BRIDGES 的框架，该框架旨在将图模态集成到 EDA 任务的 LLM 中。BRIDGES 结合了一个自动数据生成工作流，将图模态与 LLM 结合的解决方案，以及一个全面的评估套件。首先，我们建立了一个由 LLM 驱动的工作流，生成 RTL 和网表级数据，并将它们转换为具有函数描述的数据流图和网表图。该工作流产生了一个包含超过 500,000 个图实例和超过 15 亿个标记的大规模数据集。其次，我们提出了一种轻量级的跨模态投影器，它可以将图表示编码为文本兼容的提示信息，使 LLM 能够有效地利用图数据而无需进行架构修改。实验结果表明，在多个任务上，包括设计检索、类型预测和函数描述的困惑度方面，与仅基于文本的基线相比，性能提升了 2 倍到 10 倍，且几乎没有计算开销（模型权重增加不到 1%，额外的运行时开销不到 30%）。即使没有进行额外的 LLM 微调，我们的结果也远远优于仅基于文本。我们计划发布 BRIDGES，包括数据集、模型和训练流程。

发布时间: 4/8/2025

查看原文

基于注意力的多尺度时间融合网络：多模式过程不确定性模式故障诊断

作者: Guangqiang Li, M. Amine Atoui, Xiangshun Li

arXiv:2504.05172v1 类别: 交叉学科摘要: 在多模式过程中进行故障诊断在确保多种模式下工业系统的安全运行中起着至关重要的作用。它面临着一个尚未解决的重大挑战——即来自多种模式的监控数据之间的显著分布差异使得模型难以提取与系统健康状况相关的共享特征表示。为应对这一问题，本文提出了一种名为注意机制导向的多尺度时间融合网络的新方法。利用多尺度深度卷积和门控循环单元提取多尺度上下文局部特征和长短期特征。设计了一种时间注意力机制，专注于具有更高跨模式共享信息的关键时间点，从而提高故障诊断的准确性。提出的模型应用于Tennessee Eastman过程数据集和三相流设施数据集。实验结果表明，提出的模型具有优越的诊断性能，并且保持了较小的模型尺寸。

发布时间: 4/8/2025

查看原文

SSLFusion：尺度与空间对齐的潜变量融合模型用于多模态3D物体检测

作者: Bonan Ding, Jin Xie, Jing Nie, Jiale Cao

arXiv:2504.05170v1 类型: cross 摘要：基于深度神经网络的多模态3D物体检测确实取得了显著进展。然而，仍面临着2D图像和3D点云提取特征之间的尺度和空间信息对齐问题所带来的挑战。现有方法通常在单一阶段聚合多模态特征。然而，多阶段跨模态特征的利用对于检测不同尺度的物体至关重要。因此，这些方法往往难以有效地整合不同尺度和模态的特征，从而限制了检测的准确性。此外，现有方法中常用的耗时的查询-键-值（QKV）基于的跨注意力操作有助于通过捕捉非局部上下文来推理物体的位置和存在性。然而，这种方法往往会增加计算复杂性。为了解决这些挑战，我们提出了SSLFusion，一种新颖的尺度与空间对齐的隐空间融合模型，包括尺度对齐融合策略（SAF）、3D到2D空间对齐模块（SAM）以及隐空间跨模态融合模块（LFM）。SAF 通过在多个级别上聚合图像和点云特征来缓解模态间的尺度对齐问题。SAM 旨在通过将3D坐标信息整合到2D图像特征中，减少图像特征和点云特征之间的跨模态差距。此外，LFM 在隐空间中捕捉跨模态的非局部上下文，而不使用基于QKV的注意力操作，从而减轻计算复杂性。在KITTIA和DENSE数据集上的实验表明，我们的SSLFusion优于现有方法。相比KITTI测试集的中等水平上最先进的方法GraphAlign，我们的方法在3D AP上取得了绝对增益2.15%。

发布时间: 4/8/2025

查看原文

RLBayes：基于强化学习搜索策略的贝叶斯网络结构学习算法

作者: Mingcan Wang, Junchang Xin, Luxuan Qu, Qi Chen, Zhiqiong Wang

arXiv:2504.05167v1 类型: cross 摘要: 评分机制结构学习是学习贝叶斯网络（BN）的一种有效方法，贝叶斯网络被认为是表示和不确定性推理中最吸引人的概率图形模型之一。然而，随着变量数量的增加，结构学习的搜索空间呈超指数增长，这使得贝叶斯网络结构学习成为一项NP难问题以及组合优化问题（COP）。尽管在结构学习方面已经取得了许多启发式方法的成功，但贝叶斯网络结构学习的结果通常不尽如人意。受Q-learning的启发，本文提出了一种基于强化学习（RL）搜索策略的贝叶斯网络结构学习算法，名为RLBayes。该方法借鉴了强化学习的理念，旨在通过维护一个动态的Q表来记录和指导学习过程。通过创建和维护动态Q表，RLBayes能够在有限的空间内存储无限的搜索空间，从而利用Q-learning实现贝叶斯网络的结构学习。不仅从理论上证明了RLBayes可以收敛到全球最优的贝叶斯网络结构，而且实验结果也证明了RLBayes的效果优于几乎所有其他启发式搜索算法。

发布时间: 4/8/2025

查看原文

利用标签潜力以增强多模态情感识别

作者: Xuechun Shao, Yinfeng Yu, Liejun Wang

arXiv:2504.05158v1 Announce Type: cross 摘要：多模态情绪识别（MER）旨在结合各种模态以准确预测情绪状态。然而，当前大部分研究仅专注于音频和文本特征的融合，忽视了情绪标签中 valuable 的信息。这种忽视可能会阻碍现有方法的性能，因为情绪标签中蕴含了丰富而有洞察力的信息，这些信息可以显著帮助 MER。我们提出了一种名为标签信号引导的多模态情绪识别（LSGMER）的新模型，以克服这一局限。该模型旨在充分利用情绪标签信息，提高情绪识别的分类精度和稳定性。具体而言，LSGMER 使用一个标签信号增强模块，通过标签嵌入与音频和文本特征的交互优化模态特征的表示，使其能够精确捕捉情绪的细微差别。此外，我们提出了一个联合目标优化（JOO）方法，通过引入归因预测一致性约束（APC），增强了融合特征与情绪类别之间的对齐，以提高分类精度。在 IEMOCAP 和 MELD 数据集上的广泛实验已经证明了我们提出的 LSGMER 模型的有效性。

发布时间: 4/8/2025

查看原文

含随机变量环境的强化学习方法：基于决策的双重 Critic 网络 proximal 策略优化算法

作者: Leonardo Kanashiro Felizardo, Edoardo Fadda, Paolo Brandimarte, Emilio Del-Moral-Hernandez, Mari\'a Cristina Vasconcelos Nascimento

arXiv:2504.05150v1 类别: cross 摘要: 本文提出了后决策近端策略优化(PDPPO),这是一种对领先的深度强化学习方法近端策略优化(PPO)的新变体。PDPPO的状态转移过程分为两个步骤:一个确定性步骤,产生后决策状态,以及一个随机步骤,导致下一个状态。我们的方法结合了后决策状态和双重评论家来降低问题的维度,并提高价值函数估计的准确性。批量大小设置是一个混合整数规划问题,我们通过此类动态进行说明。批量大小设置的目标是在不确定的需求和成本参数下,优化生产、交付履行和库存水平。本文评估了PDPPO在各种环境和配置中的性能。值得注意的是,在特定场景下,具有双重评论家结构的PDPPO的最高奖励几乎是标准PPO的两倍,且需要更少的时期迭代,并展示了在不同初始化条件下的更快和更稳定的学习。在状态转移具有随机性的环境中,PDPPO的平均性能优于PPO。这些结果支持使用后决策状态的好处。将后决策状态整合到价值函数近似中,在高维度和随机环境中可以实现更明智和高效的的学习。

发布时间: 4/8/2025

查看原文

EffOWT：高效有效地将视觉语言模型转移应用于开放世界跟踪

作者: Bingyang Wang, Kaer Huang, Bin Li, Yiqiang Yan, Lihe Zhang, Huchuan Lu, You He

arXiv:2504.05141v1 宣告类型：交叉摘要：开放世界跟踪（OWT）旨在跟踪所有类别的每个物体，这要求模型具备强大的泛化能力。通过利用视觉语言模型（VLMs），跟踪器可以提高其泛化能力。然而，当将VLMs转移到OWT时，微调策略带来了挑战：全微调会导致过多的参数和内存开销，而零样本策略则会导致性能欠佳。为了解决这个问题，提出了EffOWT用于高效地将VLMs转移到OWT。具体而言，我们在VLM主干网络外部构建了一个小型的、独立的学习侧网络。通过冻结主干网络并在侧网络上仅执行反向传播，可以满足模型的效率要求。此外，EffOWT通过提出Transformer和CNN的混合结构来增强侧网络，在OWT领域提高模型的性能。最后，我们对MLP实现了稀疏交互，从而显著减少了参数更新和内存开销。得益于所提出的方法，EffOWT在对于未知类别而言的跟踪指标OWTA上实现了5.5%的绝对增益，而且相较于全微调仅更新了1.3%的参数，内存开销减少了36.4%。其他指标也显示出显著的改进。

发布时间: 4/8/2025

查看原文

可解释的样式Takagi-Sugeno-Kang模糊聚类

作者: Suhang Gu, Ye Wang, Yongxin Chou, Jinliang Cong, Mingli Lu, Zhuqing Jiao

arXiv:2504.05125v1 类型: cross 摘要: 聚类是一种高效且必不可少的技术，用于探索数据的潜在知识。然而，对于大多数聚类算法检测到的聚类的解释性给予了有限的关注。此外，由于数据的同质性，不同的数据组具有自己的同质风格。在本文中，考虑了上述两个方面，并提出了一种可解释的Takagi-Sugeno-Kang (TSK) 模糊聚类(IS-TSK-FC)算法。IS-TSK-FC的聚类行为完全由TSK模糊推理在模糊规则上的推理引导。特别地，样本根据所有通过无监督学习方式学习的模糊规则对应的结果向量进行分组。这可以详细解释聚类是如何生成的，从而使得IS-TSK-FC的潜在决策过程变得可解释。此外，在IS-TSK-FC中引入了一系列风格矩阵，以通过捕捉聚类的风格以及不同风格之间的细微差别来辅助模糊规则的结果。因此，IS-TSK-FC中的所有模糊规则都有强大的数据表示能力。在确定所有模糊规则的先行量后，IS-TSK-FC的优化问题可以通过交替方式迭代求解。通过在基准数据集上进行广泛的实验来验证IS-TSK-FC作为可解释聚类工具的有效性，该基准数据集包含未知的显式/隐式风格。尤其是，在不同组数据呈现显式风格的情况下，IS-TSK-FC的聚类性能在案例研究中得到了展示。IS-TSK-FC的源代码可以从 https://github.com/gusuhang10/IS-TSK-FC 下载。

发布时间: 4/8/2025

查看原文

通过激活函数选择平衡嵌入式DNN的 robustness和效率

作者: Jon Guti\'errez Zaballa, Koldo Basterretxea, Javier Echanobe

arXiv:2504.05119v1 Announce Type: cross 摘要：基于机器学习的嵌入式系统，如航空和自动驾驶等领域中的安全关键应用，必须能抵御由软错误引起的扰动。随着晶体管几何尺寸的缩小和电压的降低，现代电子设备变得更易受到背景辐射的影响，从而增加了软错误导致的故障的担忧。深层神经网络（DNNs）对这些错误的抗扰性不仅取决于目标设备的技术，还取决于模型结构以及其参数的数值表示和算术精度。用于减少内存占用和计算复杂度的压缩技术，如剪枝和量化，改变了模型的结构和表示方式，从而影响软错误的抗扰性。在这方面，虽然常常被忽视，但激活函数（AFs）的选择不仅影响准确性和训练性，还影响压缩性和抗错误能力。本文探讨了使用有界激活函数来增强对参数扰动的抗扰性的方法，同时采用技术无关的方法评估其对模型准确度、压缩性和计算负载的影响。我们集中研究了为高光谱图像语义分割开发的编码器-解码器卷积模型，并将其应用于自动驾驶系统。实验是在AMD-Xilinx的KV260 SoM上进行的。

发布时间: 4/8/2025

查看原文

SpeakEasy：提升富有表现力内容创作的文本到语音交互

作者: Stephen Brade, Sam Anderson, Rithesh Kumar, Zeyu Jin, Anh Truong

arXiv:2504.05106v1 Announce Type: 跨领域摘要：新手的内容创作者常常花费大量时间录制用于社交媒体视频的表达性语音。尽管最近在文本到语音（TTS）技术方面取得了显著进展，可以在多种语言和口音中生成高度真实的语音，但许多人仍然难以操作直观或过于繁琐的TTS界面。我们提出了一种简化TTS生成的方法，允许用户在脚本中指定高级别上下文。我们的Wizard-of-Oz系统SpeakEasy利用用户提供的情境信息来影响和指导TTS输出，使得用户可以通过高级别反馈进行迭代改进。这一方法受到了两项包含8位参与者的形成性研究的启发：一项研究了内容创作者对TTS的体验，另一项则借鉴了配音演员有效策略的经验。我们的评估显示，使用SpeakEasy的参与者在生成符合个人标准的表演方面更加成功，且不需要比领先行业的界面额外投入更多努力。

发布时间: 4/8/2025

查看原文