arXiv 论文列表

作者: Tasmiah Haque, Md. Asif Bin Syed, Byungheon Jeong, Xue Bai, Sumit Mohan, Somdyuti Paul, Imtiaz Ahmed, Srinjoy Das

arXiv:2504.05537v1 类型: cross 摘要：我们提出了一种深度学习框架，旨在显著优化基于运动传输的视频应用的带宽，包括视频会议、虚拟现实交互、健康监测系统以及基于视觉的实时异常检测。为有效捕捉复杂运动，我们利用了First Order Motion Model (FOMM)，该模型通过检测关键点及其相关的局部仿射变换来编码动态对象。关键点使用自监督关键点检测器进行识别，并按照连续帧的时间序列进行排列。通过将两种先进的时间序列生成模型（即可变递归神经网络VRNN和带有归一化流的门控递归单元GRU-NF）整合到运动传输流水线中来进行关键点的预测。预测的关键点随后通过光流估计器与生成器网络相结合合成到逼真的视频帧中，从而实现准确的视频预测和高效的低帧率视频传输。我们使用以下指标在三个视频动画和重建数据集上验证了我们的结果：绝对均方误差、联合嵌入预测架构嵌入距离、结构相似性指数以及平均成对位移。我们的结果表明，通过利用变分自编码器的卓越重建特性，VRNN整合的FOMM在涉及多步预测的应用，如视频会议方面表现出色。另一方面，通过利用归一化流架构进行精确似然估计，并实现高效的潜在空间采样，基于GRU-NF的FOMM在生成多样化未来样本同时保持高视觉质量的任务，如实时视频基异常检测方面表现出色。

发布时间: 4/9/2025

查看原文

面向特征的表示与聚类解释

作者: Rishav Mukherjee, Jeffrey Ahearn Thompson

arXiv:2504.05530v1 声明类型：交叉摘要：利用潜在未观察到的结构来学习数据中的潜在模式，以提高预测模型的准确性，已成为深度学习研究的一个活跃领域。大多数方法将原始特征聚类以捕获某些潜在结构。然而，在该过程中获得的信息往往可以通过足够复杂的模型隐式推导出来。因此，这些方法通常提供的益处有限。我们提出了一种基于 SHAP（Shapley Additive exPlanations）的监督深度学习框架 FORCE，该框架在神经网络架构中采用了两阶段使用 SHAP 值的方法，(i) 基于聚类 SHAP 值的额外潜在特征，以指导模型训练，(ii) 使用潜在信息在架构内启动注意机制。这种方法让神经网络了解未观察值对特征重要性的影响。我们提出的方法在三个实际数据集上进行了评估。结果显示，与未结合潜在特征和注意框架的网络（例如，心肌梗死存在情况下的 F1 分数为 0.80 对比 0.72）相比，FORCE 在整体性能上取得了显著的提升。使用聚类分配和基于 SHAP 值的注意力机制指导深度学习，增强了潜在模式的学习能力和整体的分类能力。

发布时间: 4/9/2025

查看原文

用LLM驱动的对话代理连接工业专业知识与XR

作者: Despina Tomkou, George Fatouros, Andreas Andreou, Georgios Makridis, Fotis Liarokapis, Dimitrios Dardanis, Athanasios Kiourtis, John Soldatos, Dimosthenis Kyriazis

arXiv:2504.05527v1 公告类型: cross 摘要：本文介绍了一种新的方法，通过检索增强生成（RAG）增强的大语言模型（LLMs）与扩展现实（XR）技术的集成，解决工业环境中知识传递的挑战。所提出的系统通过自然语言界面将特定领域的工业知识嵌入XR环境中，使工人能够获得无手操作、上下文感知的专家指导。我们展示了所提系统的架构，其中包括具有动态工具协调的LLM聊天引擎以及具有语音驱动交互的XR应用。对各种切块策略、嵌入模型和向量数据库的性能评估表明，语义切块、平衡的嵌入模型和高效的向量存储对于工业知识检索具有最佳性能。系统在多个工业应用场景中的早期实现，包括机器人装配、智能基础设施维护和航空航天组件服务，展示了其潜力。结果表明，该系统有可能提高培训效率、远程协助能力和与工业5.0的人本化和韧性的工业开发方法相一致的操作指导。

发布时间: 4/9/2025

查看原文

深度强化学习算法在期权对冲中的应用

作者: Andrei Neagu, Fr\'ed\'eric Godin, Leila Kosseim

arXiv:2504.05521v1 类型:交叉摘要:动态对冲是一种金融策略，它通过周期性交易一种或多种金融资产来抵消与相关负债相关的风险。深度强化学习（DRL）算法已被用于通过将动态对冲问题框架化为顺序决策问题来寻找动态对冲问题的最优解。然而，大多数先前的工作仅评估了一两种DRL算法的性能，使得在算法之间进行客观比较变得困难。在本文中，我们比较了八种DRL算法在动态对冲中的性能；它们包括Monte Carlo策略梯度（MCPG）、贴近策略优化（PPO），以及四种变体的深度Q学习（DQL）和两种变体的深度确定性策略梯度（DDPG）。这两种变体代表了对动态对冲任务的一种新颖应用。在我们的实验中，我们以布莱克-斯科尔斯Delta套期保值为基础线，并使用GJR-GARCH(1,1)模型模拟数据集。结果表明，MCPG 接下来的PPO在半二次惩罚的根的性能上表现最佳。此外，MCPG是唯一一种在分配的计算预算内能够超越布莱克-斯科尔斯Delta套期保值基线的算法，这可能归因于我们环境中的奖励稀疏性。

发布时间: 4/9/2025

查看原文

利用机器学习进行短波通信信号的大规模分类

作者: Stefan Scholl

arXiv:2504.05455v1 交叉公告类型: 摘要: 本文提出了一种深度学习方法，用于分类160种短波无线电信号。它解决了短波频谱中的典型挑战，即信号类型众多、多种模拟调制以及电离层传播。作为分类器，使用了一种深度卷积神经网络，该网络被训练以识别160种典型的短波信号类别。该方法是盲目的，因此不需要预先了解信号或特殊预处理信号，也不需要为每个信号类别手动设计区分性特征。该网络在大量合成生成的信号和高质量录音上进行了训练。最终，该网络在来自全球部署的接收硬件的实时无线电信号上进行了评估，并在仅1秒的观测时间内实现了高达90%的准确率。

发布时间: 4/9/2025

查看原文

GraphPINE: 基于图重要性传播的可解释药物响应预测

作者: Yoshitaka Inoue, Tianfan Fu, Augustin Luna

arXiv:2504.05454v1 交叉类型摘要：可解释性对于生物医学研究中的许多任务都是必要的。最近的可解释性方法主要集中在注意力、梯度和Shapley值上。这些方法不适用于具有强烈相关先验知识的数据，并且无法根据已知的预测特征之间的关系来约束可解释性结果。我们提出了GraphPINE，这是一种利用领域特定先验知识初始化节点重要性优化的图神经网络（GNN）架构，用于药物反应预测。通常，一个手动的预测后步骤会查阅文献（即先验知识），以了解返回的预测特征。虽然在预测后可以获得梯度和注意力的节点重要性，但这些方法缺乏互补的先验知识；GraphPINE旨在克服这一限制。GraphPINE与其它GNN门控方法的不同之处在于，它利用了一种类似LSTM的序列格式。我们引入了一个重要性传播层，该层统一了1) 特征矩阵和节点重要性的更新，并且2) 利用了基于GNN的图传播特征值。这种初始化和更新机制使得特征学习更加有见地，从而提高了图的表示能力。我们使用药物筛选和基因数据在包含超过5,000个基因节点的基因-基因图中应用GraphPINE，初始重要性基于药物-靶点相互作用（DTI）图。基因-基因图和DTIs是从已整理的来源获取的，并根据讨论药物和基因之间关系的文章数量加权。GraphPINE在952种药物上的PR-AUC值为0.894，ROC-AUC值为0.796。代码可在https://anonymous.4open.science/r/GraphPINE-40DE 获取。

发布时间: 4/9/2025

查看原文

基于行为的知识表示增强了棋手棋局推进预测准确率25%

作者: Benny Skidanov, Daniel Erbesfeld, Gera Weiss, Achiya Elyasaf

arXiv:2504.05425v1 交叉类型：跨领域摘要：在战略游戏中预测玩家行为，特别是象棋这样的复杂游戏，是一项重大挑战。这种挑战源于多个因素。首先，从初始布局开始，单个局面可能产生的潜在结果数量巨大，这使预测玩家的下一步行动变得极其复杂。其次，更为关键的是，人类行为的固有不可预测性增加了挑战。与引擎优化的玩法不同，人类玩家由于其多样的风格和决策过程而引入了更多的变数。每个玩家以自己独特的战略思考、战术意识和心理倾向来应对游戏，导致多样且经常是意想不到的行为。这种风格上的差异，加上创造性和甚至是非理性举动的可能性，使得预测人类玩家的玩法变得困难。象棋作为人工智能研究的长期标杆，已经看到了工具和自动化方面的重大进展。如Deep Blue、AlphaZero和Stockfish这样的引擎可以击败最顶尖的人类棋手。然而，尽管这些引擎在对战顶尖大师级棋手时表现出色，但预测非大师级玩家（全球象棋社区中绝大多数人）的下棋动作仍然很复杂。本文提出了一种结合专家知识与机器学习方法的新颖策略，以预测人类玩家的下一步行动。通过基于领域专业知识的特征工程，我们旨在揭示中级水平象棋玩家在游戏开局阶段的棋步模式。我们的方法论为预测人类行为提供了一个有前景的框架，同时推动了人工智能和人机交互领域的进步。

发布时间: 4/9/2025

查看原文

安全的自动重构以高效迁移 imperative 深度学习程序到图执行

作者: Raffi Khatchadourian, Tatiana Castro V\'elez, Mehdi Bagherzadeh, Nan Jia, Anita Raja

arXiv:2504.05424v1 跨领域公告类型摘要：效率对于支持针对不断增加的数据集的响应能力至关重要，特别是在深度学习（DL）系统中。传统的深度学习框架采用了延迟执行风格的DL代码——支持基于符号和图形的深度神经网络（DNN）计算。虽然这种开发方法具有扩展性，但容易出错、不够直观，并且难以调试。因此，在牺牲运行时性能的情况下，新兴的鼓励即时执行的自然命令式DL框架受到青睐。尽管混合方法旨在获得“两全其美”的效果，但要有效利用这些方法，需要精心考虑使代码能够安全、准确且高效地进行图形执行。我们提出了一种自动化重构方法，帮助开发人员指定他们的本应是即时执行的命令式DL代码是否可以可靠且高效地转换为图形执行，同时保留语义。该方法基于一种新颖的命令式张量分析，自动确定何时可以安全且可能有利地将命令式DL代码转换为图形执行。该方法作为PyDev Eclipse IDE插件实现，该插件结合了WALA Ariadne分析框架，并在19个Python项目上进行了评估，共计132.05 KLOC。我们发现，在766个候选函数中，有326个（42.56%）可以重构，并且在性能测试中观察到平均加速倍数为2.16。结果表明，该方法有助于将命令式DL代码优化到其最大的潜力。

发布时间: 4/9/2025

查看原文

PreSumm：不进行摘要生成预测摘要性能

作者: Steven Koniaev, Ori Ernst, Jackie Chi Kit Cheung

arXiv:2504.05420v1 交叉类型: cross 摘要: 尽管自动总结领域取得了最近的发展，但最先进的模型并不能很好地总结所有文档，这不禁让人提问: 为什么会这样？尽管先前的研究广泛地分析了总结模型，但很少有人关注文档特性在影响总结性能中的作用。在本文中，我们探讨了两个关键的研究问题。首先，文档在多个系统中的总结质量是否具有一致性？如果是这样，我们能否在生成总结之前预测文档的总结性能？我们对这两个问题给予了肯定的答案，并引入了一个名为PreSumm的新型任务，在此任务中，系统仅基于源文档预测总结性能。我们的分析揭示了PreSumm分数较低的文档的常见属性，表明这些文档往往存在连贯性问题、复杂内容或缺乏清晰的主要主题。此外，我们证明了PreSumm在两个关键应用中的实际应用价值：通过识别需要手动总结的文档，改进混合总结的工作流程；通过过滤异常值和嘈杂文档来提高数据集质量。总体而言，我们的发现强调了文档属性在总结性能中的关键作用，并提供了有关当前系统限制的见解，这些限制可以作为未来改进的基础。

发布时间: 4/9/2025

查看原文

快速可控语言模型生成方法，采用自适应加权拒绝采样

作者: Benjamin Lipkin, Benjamin LeBrun, Jacob Hoover Vigly, Jo\~ao Loula, David R. MacIver, Li Du, Jason Eisner, Ryan Cotterell, Vikash Mansinghka, Timothy J. O'Donnell, Alexander K. Lew, Tim Vieira

arXiv:2504.05410v1 交叉公告类型摘要：在生成具有某些约束限制的语言时占主导地位的方法是局部约束解码（LCD），在每个时间步骤中逐步采样标记，以确保约束不会被违反。通常，这是通过标记掩码实现的：遍历词汇表并将不符合约束的标记排除在外。这一方法存在两个重要问题。（i）对每个标记评估约束可能是极其昂贵的——语言模型的词汇表通常超过100,000个标记。（ii）LCD可能会扭曲字符串的全局分布，基于仅局部信息采样标记，即使这些标记会导致死胡同路径。本工作引入了一种新的算法，解决了这两个问题。首先，为了避免在生成的每一步评估词汇表的完整约束，我们提出了一种自适应拒绝采样算法，通常只需要对约束进行数量级更少的评估。其次，我们展示了如何以非常小的附加成本扩展该算法以生成低方差、无偏的重要权重估计——这些估计可以在先前提出的序列蒙特卡洛算法内安全使用，以修正局部约束执行的短视行为。通过在文本到SQL、分子合成、目标推理、模式匹配和JSON领域进行广泛的经验评估，我们展示了我们方法优于最先进的基线方法，支持更广泛类型的约束，并提高了运行时间和性能。另外的理论和经验分析表明，我们方法的运行时效率是由其动态使用计算所驱动的，与未约束的和受限的语言模型之间的差异成比例，因此，对于模型越好，运行时改进越显著。

发布时间: 4/9/2025

查看原文