arXiv 论文列表

作者: Xiao Zheng, Saeed Asadi Bagloee, Majid Sarvi

arXiv:2504.21358v1 交叉公告类型摘要：交通预测对于智能交通系统至关重要，机器学习方法被广泛探索以开发数据驱动的人工智能解决方案。近期的研究重点在于建模空间-时间相关性以进行短期交通预测，而长期有利的预测仍然是一个具有挑战性和开放性的问题。本文针对大规模实际信号交叉口和高速公路交通流量数据集，进行了一项比较研究，旨在评估在长期预测背景下（长达30天）的有前途的机器学习方法。本文侧重于建模时间动态能力，开发了一种集成机器学习方法，极端梯度提升（XGBoost），以及一系列深度学习方法，包括基于循环神经网络（RNN）的方法和当前最前沿的基于Transformer的方法。时间嵌入被利用来增强它们对季节性和事件因素的理解。实验结果突显了在序列数据中捕获长距离依赖性的注意力机制/Transformer框架的有效性，但随着预测时间范围的延长，有效交通预测的关键逐渐从时间依赖性捕获转向周期性建模。时间嵌入在这一背景下尤为重要，它帮助简单的RNN在30天后的预测中比Informer高出31.1%。同时，作为高效的稳健模型，即便仅从时间特征学习，XGBoost仍与深度学习方法竞争。此外，我们还探讨了输入序列长度、节假日交通、数据粒度和训练数据规模等各种因素的影响。研究结果提供了宝贵的见解，并作为未来长期交通预测研究和增强人工智能相应学习能力的参考。

发布时间: 5/1/2025

查看原文

Nexus-Gen：统一的图像理解、生成和编辑模型

作者: Hong Zhang, Zhongjie Duan, Xingjun Wang, Yingda Chen, Yuze Zhao, Yu Zhang

arXiv:2504.21356v1 公告类型: 交叉摘要：统一多模态大型语言模型（Unified Multimodal Large Language Models, UMLLMs）旨在通过单一框架整合多模态的理解和生成能力。尽管它们具有广泛的应用性，现有的开源统一模型在性能上仍与领域特定的架构存在差距。为了弥合这一差距，我们提出了Nexus-Gen，这是一个统一模型，它将大型语言模型的语言推理能力与扩散模型的图像合成能力相结合。为了使大型语言模型和扩散模型的嵌入空间对齐，我们进行了一种双阶段对齐训练过程。首先（1），自回归大型语言模型学会在基于多模态输入的条件下预测图像嵌入；其次（2），视觉解码器被训练从这些嵌入中重建高保真图像。在训练大型语言模型时，我们发现自回归范式训练和推断阶段之间存在关键差异，其中在连续嵌入空间中的误差累积严重影响了生成质量。为了避免这个问题，我们引入了一种预填充自回归策略，使用带有位置嵌入的特殊标记填充输入序列，而不是连续嵌入。通过双阶段训练，Nexus-Gen已经具备了综合处理图像理解、生成和编辑任务的能力。所有模型、数据集和代码在https://github.com/modelscope/Nexus-Gen.git中发布，以促进该领域的进一步发展。

发布时间: 5/1/2025

查看原文

基于视觉-语言模型的语义导向影像生物标志物用于早期肺癌检测

作者: Luoting Zhuang, Seyed Mohammad Hossein Tabatabaei, Ramin Salehi-Rad, Linh M. Tran, Denise R. Aberle, Ashley E. Prosper, William Hsu

arXiv:2504.21344v1 交叉类型：公告摘要：目标：许多机器学习模型利用语义特征、深层特征或两者来评估肺结节恶性程度。然而，在推断过程中依赖手动注释、可解释性受限以及对影像变异的敏感性阻碍了这些模型在实际临床环境中的应用。因此，本研究旨在集成放射科医生对结节评估中提取的语义特征，使模型能够学习临床相关、稳健且可解释的特征，用于预测肺癌。方法：我们使用来自国家肺癌筛查试验的938个低剂量CT扫描数据，其中包含1,246个结节和语义特征。肺影像数据库联盟数据集包含了1,018个CT扫描，其中2,625个病灶标注了结节特征。我们从UCLA Health、LUNGx 挑战赛和杜克肺癌筛查获得了三个外部数据集。我们使用参数高效微调方法对预训练的对比语言-图像预训练模型进行微调，以对齐影像和语义特征，并预测一年后的肺癌诊断结果。结果：我们使用AUROC和AUPRC评估了一年肺癌诊断性能，并与三个最先进的模型进行了比较。我们的模型在外部数据集上表现出0.90的AUROC和0.78的AUPRC，超越了基线最先进的模型。通过使用CLIP，我们还获得了结节边缘（AUROC：0.81）、结节一致性（0.81）和胸膜附着（0.84）等语义特征的预测，这些特征可以用于解释模型预测。结论：我们的方法准确地将肺结节分类为良性或恶性，提供可解释的输出，帮助临床医生理解模型预测的底层含义。这种方法还防止模型学习捷径，并且可以在不同临床环境中泛化。

发布时间: 5/1/2025

查看原文

带有干预语义的事实因子动作空间的Q函数分解

作者: Junkyu Lee, Tian Gao, Elliot Nelson, Miao Liu, Debarun Bhattacharjya, Songtao Lu

arXiv:2504.21326v1 类型：交叉摘要：许多实际的强化学习环境具有离散的分解动作空间，这会产生大量的组合动作集，从而带来重大挑战。现有方法利用动作空间的规律结构，采用线性分解Q函数的方法，从而避免列出所有分解动作的组合。在本文中，我们考虑在原始动作空间的较低维度投影子空间上定义的Q函数，并通过因果统计中的无未观察混杂变量的因果效应估计来研究分解Q函数的无偏性条件。这导致了一种一般方案，我们称之为动作分解强化学习，在这种方案中，使用投影的Q函数来近似标准无模型强化学习算法中的Q函数。提出的这种方法在基于模型的强化学习设置中显示出改进了样本复杂性。我们在在线连续控制环境和一个实际的离线脓毒症治疗环境中，相较于最先进的基线方法，展示了样本效率上的改进。

发布时间: 5/1/2025

查看原文

如何在知识蒸馏中植入后门

作者: Chen Wu, Qian Ma, Prasenjit Mitra, Sencun Zhu

arXiv:2504.21323v1 安全性类型: 横向摘要：知识蒸馏已成为现代机器学习系统中的基石，因其能够将大型复杂教师模型的知识转移到更高效的student模型而备受赞誉。传统上，这一过程被视为安全的，前提是假设教师模型是干净的。这种信念源于传统后门攻击依赖于被污染的训练数据和攻击者选择的标签，而这些因素并未参与蒸馏过程。相反，知识蒸馏使用干净教师模型的输出来指导student模型，本质上防止了识别或响应攻击者设定的后门触发器。在本文中，我们通过引入一种新颖的攻击方法挑战了这一假设，该方法战略性地将包含后门触发器的对抗样本污染蒸馏数据集。该技术可以在不损害教师模型完整性的情况下，秘密地攻破student模型。我们的创新方法代表了首次成功利用清洁教师模型中的知识蒸馏过程漏洞。通过在各种数据集和攻击设置下的广泛实验，我们展示了我们方法的稳健性、隐匿性和有效性。我们的研究结果揭示了之前未被发现的漏洞，并为未来旨在保护知识蒸馏过程免受后门攻击的研究铺平了道路。

发布时间: 5/1/2025

查看原文

参与式人工智能、公共部门人工智能、差分隐私、对话式接口、可解释人工智能、公民参与人工智能

作者: Wenjun Yang, Eyhab Al-Masri

arXiv:2504.21297v1 公共部门应用中的参与式设计对话接口系统摘要：本文介绍了一种对话接口系统，该系统使用户能够在公共部门应用中参与设计差异隐私的AI系统。为了解决在平衡数学上的隐私保证与民主问责之间的挑战，我们提出了三个关键贡献：(1) 一种基于TOPSIS多准则决策分析的自适应$\epsilon$-选择协议，旨在将市民的偏好与差异隐私（DP）参数对齐；(2) 一种可解释的噪声注入框架，包括实时平均绝对误差（MAE）可视化和由GPT-4驱动的影响分析；以及(3) 一种集成的法律合规机制，能够根据不断变化的监管约束动态调节隐私预算。我们的结果通过展示对话接口如何增强公众对算法隐私机制的参与，从而推进了参与式AI的实践，确保公共部门治理中的隐私保护AI既具有数学上的鲁棒性，又具有民主上的问责制。

发布时间: 5/1/2025

查看原文

图学习增强中的公平性：一篇综述

作者: Renqiang Luo, Ziqi Xu, Xikun Zhang, Qing Qing, Huafei Huang, Enyan Dai, Zhe Wang, Bo Yang

arXiv:2504.21296v1 公告类型：交叉摘要：将专门化的机器学习技术融入传统的图学习模型已经在各种领域取得了显著成功，包括联邦图学习、动态图学习和图变换器。然而，这些专门化技术的复杂机制在保持模型公平性方面引入了重大挑战，这可能导致在推荐系统、灾害响应、司法执法和贷款审批等重要应用中出现歧视性结果。本文系统地探讨了将机器学习增强图学习（GL-ML）所带来的独特公平性挑战。它强调了图学习机制与机器学习技术之间的复杂交互，突出了机器学习增强如何既增强又复杂化公平性。此外，我们探讨了四种常用于提高GL-ML方法公平性的关键技术。通过全面调查这一快速发展领域中公平性挑战的根本原因及其更广泛的含义，本文为GL-ML公平性的未来研究和创新奠定了坚实的基础。

发布时间: 5/1/2025

查看原文

基于正交因子的共矩阵聚类算法（BCBOF）及其在股票趋势预测中的应用

作者: Yan Huang, Da-Qing Zhang

arXiv:2504.21289v1 交叉类型: biclustering 摘要：共聚类是一种在数据挖掘和模式识别中有效的方法。当处理高维数据时，基于传统聚类的共聚类算法面临两个根本性的局限性：(1) 高维空间中的距离集中现象导致数据稀疏，使相似性度量无效；(2) 主流的线性降维方法破坏了关键的局部结构模式。为了将共聚类应用于高维数据集，我们提出了一种基于正交因子的共聚类算法（BCBOF）。首先，我们在高维数据集的向量空间中构建了正交因子，然后，我们使用原始数据在正交子空间中的坐标作为聚类目标进行聚类。最后，我们得到了原始数据集的共聚类结果。由于在聚类之前进行了降维，所提出算法有效地缓解了由于高维数据导致的数据稀疏问题。此外，我们将该共聚类算法应用于股票技术指标组合及股票价格趋势预测。将共聚类结果转换为模糊规则，并将收益保护和止损规则纳入规则集，最终形成一个用于股票价格趋势预测和交易信号的模糊推理系统。为了评估BCBOF的性能，我们使用多种评估指标与现有的共聚类方法进行了比较。结果显示，我们的算法优于其他共聚类技术。为了验证模糊推理系统的有效性，我们使用10只A股历史数据进行了虚拟交易实验。实验结果表明，生成的交易策略为投资者带来了更高的收益。

发布时间: 5/1/2025

查看原文

通过路径规划任务评估大规模语言模型的代码生成质量

作者: Wanyi Chen, Meng-Wen Su, Mary L. Cummings

arXiv:2504.21276v1 宣告类型: cross 摘要：随着LLM生成的代码越来越受欢迎，需要更多的评估来评估使用这些工具的风险，尤其是在路径规划等安全关键应用中。现有的编码基准不足，因为它们没有反映安全关键应用的上下文和复杂性。为此，我们评估了六种LLM生成三种不同路径规划算法代码的能力，并在三种不同难度的地图上进行了测试。我们的结果显示，LLM生成的代码对路径规划应用程序存在严重危险，并且在未经严格测试的情况下不应应用于安全关键环境。

发布时间: 5/1/2025

查看原文

多域因果发现在双射因果模型中

作者: Kasra Jalaldoust, Saber Salehkaleybar, Negar Kiyavash

arXiv:2504.21261v1 交叉发布类型: cross 摘要: 我们考虑在多领域设置下因果发现(又称因果结构学习)的问题。我们假设因果函数在各个领域是不变的，而外生噪声的分布可能会有所不同。在因果完备性（即不存在混杂因素）的假设下，我们证明可以在比之前工作更宽松的函数假设下发现因果图。在这种设置下能够实现因果发现的是双向生成机制（Bijective Generation Mechanisms, BGM），它保证了外生噪声 $ E $ 和内生变量 $ Y $ 之间的函数关系在因果变量 $ X = x $ 的每个级别上都是双向可微且双射的。BGM 适用于包括加性噪声模型、LiNGAM、后非线性模型和位置-尺度噪声模型等多种模型。此外，我们推导了一种统计测试来发现目标变量的父集。在各种合成和真实世界数据集上的实验验证了我们的理论发现。

发布时间: 5/1/2025

查看原文