arXiv:2505.00876v1 宣布类型: 新颖
摘要: 驾驶辅助系统提供了一系列至关重要的服务,包括密切监控车辆的状态。本文展示了为汽车工业设计的一款开创性传感器健康监测系统。该创新型系统利用先进的技术处理从各种车辆传感器收集的数据。它在电子控制单元(ECU)中比较这些传感器的输出,以评估每个传感器的健康状况。为了解析传感器数据之间的复杂关联,进行了广泛探索机器学习和深度学习方法。通过细致的分析,确定了最相关的传感器数据。这些宝贵的见解随后被用来提供传感器值的精确估计。在多种学习方法中研究后,结合自编码器检测传感器故障和随机森林回归估计传感器值的方法取得了最令人印象深刻的结果。开发了一个统计模型,使用正态分布来主动识别可能的传感器故障。通过将传感器的实际值与其基于相关传感器估计值进行比较,可以早期检测出故障传感器。当检测到故障传感器时,系统会及时通知驾驶员和维护部门,并用分析得到的估计值替换故障传感器的价值。该主动方法使用Saipa的Quick车辆ECU的数据进行了评估,在20个关键传感器中取得了令人印象深刻的成功准确率为99%。
arXiv:2505.00875v1 宣传类型: 新闻
摘要:代理管道为以人为本的可解释性带来了新的挑战和机遇。HCXAI社区仍在努力寻找最佳方法,以在可操作的层面上使LLMs的内部工作原理透明。代理管道是由多个LLMs在最少的人控干预下协同工作的系统。在这篇研究论文中,我们介绍了代理管道中感知任务指导系统实现的早期研究成果。通过定量和定性的分析,我们探讨了解释性链(Chain-of-Thought, CoT)推理在代理管道中如何运作,CoT推理是一种常见的可解释性方法,在LLMs中广泛应用。我们证明,仅使用CoT推理并不能产生更好的输出,也不能提供可解释性,因为它们往往会产生缺乏解释性的解释,即这些解释并不提高终端用户更好地理解系统或实现目标的能力。
arXiv:2505.00827v1 宣布类型: 新
摘要: 基于机器学习算法的临床风险预测在现代医疗保健中起着关键作用。开发可靠预测模型的关键组成部分之一是收集高质量的时间序列临床事件。在本文中,我们发布了一个包含22,588,586个临床时间序列事件的数据集,我们称之为MIMIC-\RNum{4}-Ext-22MCTS。我们的原始数据是从广为人知但未结构化的MIMIC-IV-Note \cite{Johnson2023-pg} 中选择的出院总结。然后,我们从出院总结中提取出作为短文本片段的临床事件,以及这些事件的时间戳作为时间信息。通用的MIMIC-IV-Note给我们的工作带来了特定的挑战:结果表明,出院总结对于典型的自然语言模型来说太长了,无法处理,而且感兴趣的临床事件通常没有明确的时间戳。因此,我们提出了一个新框架,该框架如下工作:1) 我们将每个出院总结分解为可管理的小段文本;2) 我们应用上下文BM25和上下文语义搜索来检索具有高度潜在包含临床事件的片段;3) 我们精心设计了提示,教最近发布的Llama-3.1-8B \cite{touvron2023llama} 模型识别或推断这些片段的时间信息。我们展示,获得的数据集如此具有信息性和透明度,即使是在我们的数据集上微调的标准模型在医疗应用中也取得了显著的改进。特别是,基于我们数据集微调的BERT模型在医学问答任务中的准确率提高了10%,在临床试验匹配任务中的准确率提高了3%,比经典BERT高出3%。基于我们数据集微调的GPT-2模型对临床问题的响应更具有临床可靠性。
arXiv:2505.00802v1 宣告类型: 新
摘要: 当人工智能(AI)在对人类生活产生重大影响的领域中越来越被广泛应用时,关于公平性和透明度的担忧也在增加,尤其是在这些领域对受保护群体的影响方面尤为突出。最近,可解释性和公平性的交集已成为推动负责任的AI系统的重要领域。本文探讨了如何利用解释方法来检测和解释不公。我们提出了一种管道,该管道将局部事后解释方法整合起来,以获取与公平性相关的见解。在管道设计过程中,我们识别并解决了使用解释作为偏见检测器时产生的一些关键问题,如分配公平性和程序公平性的关系、移除受保护属性的影响、不同解释方法的结果的一致性和质量、局部解释的各种聚合策略对群体公平性评估的影响,以及作为偏见检测器的解释的整体可信度。我们的结果显示了使用解释方法进行公平性方面的潜在价值,同时也强调了需要谨慎考虑上述关键方面。
arXiv:2505.00795v1 宣告类型: 新
摘要: Howard的策略迭代(HPI)是解决马尔可夫决策过程(MDPs)的经典算法。HPI 使用一种“贪婪” 的切换规则,从任意非最优策略更新到一个支配的策略,直到找到最优策略为止。尽管该算法在六十年前被提出,HPI 的运行时间的最佳已知上界仍然呈指数级增长,甚至在只包含确定性转换的 MDP 类(DMDPs)中也是如此。与此同时,对于每状态只有固定数量动作的 MDPs,HPI 的最紧低界仅为线性。在本文中,我们报告了一个显著的改进:对于 DMDPs 的 HPI,存在一个次指数级的上界,该上界依赖于奖励的位数,而与折扣因子无关。同样的上界也适用于只有两种可能奖励(其大小可任意)的 DMDPs。
arXiv:2505.00733v1 自适应类型:新
摘要:自主机器人必须在多种环境中运行并处理多种任务,尽管存在不确定性。这在设计软件架构和任务决策算法方面提出了挑战,因为在不同的上下文中可能需要不同的任务逻辑和架构配置。为了解决这个问题,机器人系统可以设计为自适应系统,能够在运行时根据其上下文调整其任务执行和软件架构。本文介绍了ROSA,这是一个新型基于知识的框架,用于机器人自适应,使机器人系统中的任务和架构协同适应(TACA)。ROSA 通过提供一个知识模型来实现这一目标,该模型捕获了所有适应所需的特定于应用程序的知识,并在运行时对这些知识进行推理以确定何时以及如何进行适应。除概念框架外,本工作还提供了基于 ROS 2 的 ROSA 的开源参考实现,并在水下机器人应用中评估了其可行性和性能。实验结果突显了ROSA在设计自适应机器人系统方面的可重用性和开发努力的优势。
arXiv:2504.21800v2 宣告类型: replace-cross
摘要:合成数据在医疗保健领域的日益采用是由隐私顾虑、真实世界数据有限的访问以及注解成本高昂所驱动的。本文探讨了使用合成延长暴露(PE)治疗对话作为 PTSD 临床模型训练和评估的可扩展替代方案。我们系统地比较了真实和合成对话,使用语言学、结构和协议特定的指标,包括轮流模式和治疗忠诚度。我们还引入并评估了源自语言分析和语义建模的 PE 特定指标,提供了一个超越表面流畅性的临床忠诚度评估的新框架。我们的研究成果表明,尽管合成数据有潜力缓解数据稀缺并保护患者隐私,但它在捕捉治疗互动中的微妙动态方面可能会遇到困难。合成疗法对话在结构特征上与真实世界对话紧密匹配(例如,说话人切换比率:0.98 对比 0.99);然而,它们可能无法充分反映关键的忠诚度标记(例如,压力监控)。我们指出了现有评估框架中的差距,并倡导一种超越表面流畅性的忠诚度感知度量,以发现重要的临床失败。我们的发现阐明了合成数据在补充真实世界数据集中的有效领域——以及存在的关键限制。
arXiv:2504.21489v2 宣告类型: 替换-交叉
摘要:生成式AI和欺骗性合成媒体的泛滥威胁到了全球信息生态系统,尤其是在全球多数国家中更为显著。人权观察组织的这份报告指出现有的AI检测工具普遍存在缺陷,这些工具在实际场景中往往因可解释性、公平性、可访问性和情境相关性方面的挑战而表现不佳。针对这一问题,人权观察组织推出了“真正创新和有效的AI检测基准”(TRIED benchmarks),这是一个新的框架,基于检测工具在实际世界中的影响和创新潜力来评估检测工具。该报告结合前线经验、欺骗性AI案例和全球咨询,阐述了检测工具必须通过满足多样的语言、文化和技术背景来变得真正创新和相关。它为开发者、政策制定者和标准机构提供了实用的指导,以设计可问责、透明和用户为中心的检测解决方案,并将社会和技术因素纳入未来的AI标准、程序和评估框架之中。通过采纳TRIED基准,利益相关者可以推动创新,保护公众信任,增强AI素养,并为更具韧性的全球信息可信度做出贡献。
arXiv:2504.21155v2 宣布类型: replace-cross
摘要:我们的贡献受到于依赖于维持磁流体动力学(MHD)平衡的聚变反应堆的启发,在这种平衡中,等离子体压力与约束磁场之间的平衡对于稳定运行是必要的。特别是对于轴对称托卡马克反应堆,在假设存在环形对称性的情况下,这种平衡可以用Grad-Shafranov方程(GSE)进行数学建模。最近的工作表明,使用物理信息神经网络(PINNs)来建模GSE的潜力。现有研究未探讨单一网络在多种边界条件下的泛化能力。为解决这一局限,我们评估了一个将边界点作为网络输入的PINN架构。此外,我们将PINN模型的准确性和推理速度与傅里叶神经算子(FNO)模型进行了比较。尽管我们在PyTorch中原生评估与通过Marabou评估网络之间发现了一些差异,但我们能够演示有用的实践验证工作流。我们的研究是首次对这种网络进行验证的研究。
arXiv:2504.21036v2 公告类型: replace-cross
摘要:微调大型语言模型(LLMs)已成为使它们适应特定任务的关键策略;然而,这一过程引入了重大的隐私挑战,因为敏感训练数据可能会被无意中记住并暴露。虽然差分隐私(DP)在理论上提供了对这种泄露的强大保证,但其在LLMs上的实际隐私有效性仍然不清楚,特别是在不同的微调方法下。在本文中,我们系统地研究了DP对不同微调方法和隐私预算的影响,使用数据提取和成员推理攻击来评估实际的隐私风险。我们的主要发现如下:(1)差分隐私会减少模型的实用性,但其影响在不同的微调方法之间差异很大。(2)在没有DP的情况下,采用不同方法微调的模型的隐私风险差异很大。(3)当应用DP时,即使有较高的隐私预算也可能显著降低隐私风险。(4)在DP训练下的隐私-实用性权衡在不同的微调方法之间差异很大,某些方法因严重的实用性下降而不适合DP。我们的结果为隐私意识较强的LLMs部署提供了实用指导,并为未来研究如何在微调方法上优化隐私-实用性权衡奠定了基础。