arXiv 论文列表

使用视觉变换器自动诊断肺部疾病：胸部X光分类的对比研究

作者: Muhammad Ahmad, Sardar Usman, Ildar Batyrshin, Muhammad Muzammil, K. Sajid, M. Hasnain, Muhammad Jalal, Grigori Sidorov

arXiv:2503.18973v1 类别：交叉领域摘要：背景：肺部疾病是一个重要的健康问题，特别是在儿童和老年人中更为显著。这些疾病通常由肺部感染引起，并且是儿童死亡的主要原因。全球范围内，与肺部相关的疾病每年夺去许多生命，因此早期和准确的诊断至关重要。X射线是诊断这类疾病的重要工具。最常见的肺部疾病，包括肺炎、哮喘、过敏、慢性阻塞性肺疾病（COPD）、支气管炎、肺气肿和肺癌，构成了重大的公共卫生挑战。早期预测这些疾病是关键的，因为它有助于识别风险因素并采取预防措施，以降低疾病发生的可能性。方法：在这个研究中，我们使用了一个包含3,475张胸部X光图像的数据集，这些图像来源于Talukder, M. A. (2023) [14]通过Mendeley Data提供的数据，并将这些图像分为三个类别：正常、肺部阴影和肺炎。我们应用了五种预训练的深度学习模型，包括CNN、ResNet50、DenseNet、CheXNet、U-Net以及两种迁移学习算法，分别为Vision Transformer (ViT) 和Shifted Window (Swin)，来分类这些图像。这一方法旨在通过减少对人力干预的依赖，利用自动化分类系统解决肺部异常的诊断问题。我们的分析在二分类和多分类两种设置下进行。结果：在二分类中，我们专注于区分正常和病毒性肺炎病例，而在多分类中，所有三个类别（正常、肺部阴影和病毒性肺炎）都被包括在内。我们提出的方法（ViT）取得了显著的性能，二分类的准确率为99%，而多分类的准确率为95.25%。

发布时间: 3/26/2025

查看原文

统一EEG和语音的情绪识别：一种处理推理过程中缺失EEG数据的两步联合学习框架

作者: Upasana Tiwari, Rupayan Chakraborty, Sunil Kumar Kopparapu

arXiv:2503.18964v1 宣告类型: cross 摘要: 计算机界面正朝着使用多感知方式的方向发展，以实现更顺畅的人机交互。自动情绪识别(AER)的使用可以使交互更加自然和有意义，从而提高用户体验。尽管语音是自动情绪识别中最直接和直观的方式，但它并不可靠，因为人类可以故意篡改语音。另一方面，如EEG等生理模态则更为可靠且无法被篡改。然而，由于需要专门的记录设备，使用EEG在现实场景中并不切实际。本文的一个主要目标是利用EEG模态的可靠性来促进在语音模态上的稳健自动情绪识别。我们的方法在训练过程中同时使用两种模态，即使在没有更可靠的EEG模态的情况下，也能可靠地识别情绪。我们提出了一种两步联合多模态学习方法（JMML），利用了这两项模态内的和之间的特性，构建了情绪嵌入，从而丰富自动情绪识别的性能。在第一步中，使用JEC-SSL，我们分别在每种模态上独立进行模态内学习。随后，使用所提出的深度齐次联合交叉模态自编码器（E-DCC-CAE）的扩展版本进行跨模态学习。该方法通过将这两种模态映射到一个共同表示空间，使得这两种模态尽可能地相关。这些情绪嵌入具有这两种模态的特性，从而提升了用于自动情绪识别的机器学习分类器的性能。实验结果表明了所提出方法的有效性。据我们所知，这是第一次尝试将语音和EEG与联合多模态学习方法结合起来进行可靠的情绪识别。

发布时间: 3/26/2025

查看原文

国际人工智能安全协议：综述与建议，以条件性人工智能安全条约为准

作者: Rebecca Scholefield, Samuel Martin, Otto Barten

arXiv:2503.18956v1 命令类型: cross 摘要：先进的通用人工智能（GPAI）的恶意使用或误用所引起的风险，根据领先专家的说法，可能会导致“人类的边缘化或灭绝”。为应对这些风险，提出了一种不断增加的国际人工智能安全协议提案。在本文中，我们回顾了2023年后的提案，确定共识和分歧的领域，并结合相关文献评估其可行性。我们重点讨论了风险阈值、监管、国际协议的类型以及五个相关过程：建立科学共识、标准化、审计、验证和激励措施。基于这一回顾，我们提议制定一项条约，在此之上进行开发需要严格的监管。这项条约要求由国际人工智能安全学院（AISIs）网络对模型、信息安全和治理实践进行补充审计，该网络在风险不可接受时有权暂停开发。我们的方法结合了可立即实施的措施并与不断发展的研究相结合的灵活结构。

发布时间: 3/26/2025

查看原文

关于控制仿射薛定谔桥的霍普夫-科尔变换

作者: Alexis Teter, Abhishek Halder

arXiv:2503.17640v1 Announce Type: 相交摘要：本文旨在阐明在使用霍普夫-科尔变换求解控制仿射Schrödinger桥问题时，$\boldsymbol{gg}^{\top}\propto \boldsymbol{\sigma\sigma}^{\top}$ 关系的重要性，其中$\boldsymbol{g},\boldsymbol{\sigma}$分别是控制系数和噪声系数。我们展示了在不假设$\boldsymbol{gg}^{\top}\propto\boldsymbol{\sigma\sigma}^{\top}$的情况下，将霍普夫-科尔变换应用于一般控制仿射Schrödinger桥问题的最优性条件，得到的一对前向-后向偏微分方程（PDEs）既不是线性的，也不是方程级解耦的。我们解释了这些结果的偏微分方程可以被解释为非线性前向-后向对流-扩散-反应方程，其中的非线性来源于涉及对数似然梯度（即分数）的附加漂移和反应项。当$\boldsymbol{gg}^{\top}\propto\boldsymbol{\sigma\sigma}^{\top}$时，这些附加的漂移和反应项消失，从而可以将得到的边界耦合的线性偏微分方程系统通过动态Sinkhorn递推方法求解。我们工作的关键收获是，一般控制仿射Schrödinger桥的数值求解需要进一步的算法发展，可能需要推广动态Sinkhorn递推方法或其他方法。

发布时间: 3/26/2025

查看原文

思考型代理用于零样本泛化到定性新颖的任务

作者: Thomas Miconi, Kevin McKee, Yicong Zheng, Jed McCaleb

arXiv:2503.19815v1 宣告类型: 新摘要: 具有智能的生物能够解决它们在一生中或进化过程中从未遇到的真正新颖的问题。这种能力的重要组成部分是“思考”的能力，即在心中操作对象、概念和行为，以便计划和评估新问题的可能解决方案，即使在没有环境互动的情况下也是如此。为了生成真正质上新颖的问题，同时仍然可以在心中模拟这些问题，我们利用环境的组合性质：我们在训练代理时保留了环境元素的一种特定组合。基于这种组合的新颖测试任务因此而被保证是真正新颖的，同时仍然可以通过代理在训练期间暴露于每个单独元素（以及它们的成对交互）来心中模拟。我们提出了一种方法，通过根据代理在预先思考和后续思考表现之间的差异来选择任务，来训练具有世界模型的代理利用其心中的模拟能力。当在被保留的新颖问题上进行测试时，最终的代理成功地模拟了替代场景，并利用由此获得的信息来指导其在实际环境中的行为，在一次真实环境试验中解决了新颖任务（零样本）。

发布时间: 3/26/2025

查看原文

XAI归因方法中基线选择指南

作者: Cristian Morasso, Giorgio Dolci, Ilaria Boscolo Galazzo, Sergey M. Plis, Gloria Menegaz

arXiv:2503.19813v1 宣传类型：新摘要：鉴于人工智能的广泛应用，提供证据证明AI模型可靠、可信和公平至关重要。为此，可解释AI这一新兴领域发展了相关技术以满足这些要求，与推动该技术普及的炒作相对立。在这一问题的众多方面中，本文专注于基础归因方法，旨在通过所谓的“基准”刺激，即通常称为“基础”的刺激，从网络输入中推导出特征归因图。基准的选择至关重要，因为它决定了对网络行为的解释。在这个框架下，本文的双重目标是阐明基准选择的影响，并提供一种简单有效的方法来识别最适合任务的基准。为了实现这一目标，我们提出了一种决策边界采样方法，因为根据定义，基准位于决策边界上，这自然成为搜索域。实验在合成示例上进行，并通过最先进的方法进行了验证。尽管仅限于实验范围，但这一贡献是相关性的，因为它提供了明确的指南和一个简单的基准选择代理，减少了模糊性并提高了深度模型的可靠性和可信度。

发布时间: 3/26/2025

查看原文

模拟追踪数据以促进体育数据分析研究

作者: David Radke, Kyle Tilbury

arXiv:2503.19809v1 宣布类型: 新颖摘要: 高级分析已经改变了体育团队的运作方式，特别是在棒球等周期性体育项目中更为显著。由于比赛复杂性的增加和对高分辨率比赛跟踪数据访问限制的增加，其对足球和冰球等持续侵入性体育项目的影响受到限制。在本次演示中，我们提出了一种方法，利用来自Google Research Football环境的模拟足球跟踪数据来支持针对持续跟踪数据的模型开发。这些数据以代表真实跟踪数据的结构存储，并提供了提取高级特征和事件的过程。我们展示了已建立的跟踪数据模型的例子，以展示模拟数据的有效性。我们解决了公开可用跟踪数据稀缺的问题，为人工智能与体育分析的交叉研究提供了支持。

发布时间: 3/26/2025

查看原文

基于意向性语句划分回答集程序（扩展版本）

作者: Jorge Fandinno, Yuliya Lierler

arXiv:2503.19762v1 通知类型: 新摘要: 将逻辑程序拆分为子程序可以将计算其稳态模型的任务转化为子程序的类似任务。这可以用来提高求解性能并证明程序的正确性。我们通过不仅考虑谓词之间的依赖关系，还考虑其参数和上下文，来泛化这种技术的应用条件。这使得通常在实践中使用的程序可以进行拆分，而之前的结果并不适用于这些程序。

发布时间: 3/26/2025

查看原文

基于LLM的honeypot代理中诱导个性：测量对人类-like议程生成效果的影响

作者: Lewis Newsham, Ryan Hyland, Daniel Prince

arXiv:2503.19752v1 宣告类型: 新颖摘要: 本文介绍了SANDMAN，这是一种利用语言代理模拟逼真人类模拟物的网络欺骗架构。我们的“欺骗代理”作为高级网络诱饵，通过延长攻击行为的观察期，旨在与攻击者进行高度真实的互动。通过实验、测量和分析，我们展示了基于五因素人格模型的提示方案如何系统地在大规模语言模型中诱导出不同的“人格”。我们的结果突显了以人设驱动语言代理生成多样且现实行为的可能性，最终提高了网络欺骗策略的效果。

发布时间: 3/26/2025

查看原文

基于模型预测控制的无人机配送系统最优路径规划与成本最小化

作者: Muhammad Al-Zafar Khan, Jamal Al-Karaki

arXiv:2503.19699v1 宣告类型: 新摘要: 在这项研究中，我们将无人机送货问题形式化为一个控制问题，并使用模型预测控制方法解决该问题。进行了两次实验：第一次是在一个较为简单的网格世界环境中进行，该环境的维度较低；第二次则是在具有更高维度和更多复杂性的环境中进行。模型预测控制方法被用来与三种流行的多智能体强化学习（MARL）方法进行基准测试：独立 Q 学习（IQL）、联合行动学习者（JAL）和价值分解网络（VDN）。研究表明，模型预测控制方法能更快地解决问题，并且在实现最小成本和导航最优路径方面所需的最优无人机数量较少。

发布时间: 3/26/2025

查看原文