本案例研究深入探讨了特斯拉自动驾驶系统事件的伦理影响,强调了特斯拉汽车公司的道德责任。通过七步伦理决策过程,它考察了用户行为、系统约束和监管影响。该事件促使人们更广泛地评估汽车行业采用自动驾驶技术的伦理挑战,呼吁重新审视行业规范和法律框架。该分析简要探讨了不断变化的技术环境中的伦理考量。
尽管Transformer被认为是计算机视觉的新标准,但在数据量有限的情况下,卷积神经网络(CNN)仍然优于它们。然而,CNN 经常根据输入图像的狭窄、特定区域做出决策,尤其是在训练数据有限的情况下。这种行为会严重损害模型的泛化能力,使其过度依赖某些特征,而这些特征可能无法代表图像的更广泛语境。虽然导致这种现象的原因仍然难以捉摸,但这篇文章的主要目的是阐明这种观察到的神经网络行为。我们的研究努力优先考虑全面洞察并概述对此现象的初步应对。为此,我们引入了显著性引导Dropout(SGDrop),这是一种针对解决此特定问题的开创性正则化方法。SGDrop 利用特征图上的归因方法来识别并减少训练期间最显著特征的影响。这个过程鼓励网络分散其注意力,而不是仅仅关注特定的突出区域。我们在多个视觉分类基准上的实验验证了 SGDrop 在增强泛化能力方面的作用。重要的是,包含 SGDrop 的模型显示出更广泛的归因和神经活动,与传统训练的模型相比,提供了对输入图像的更全面的视图。
由于中风或多发性硬化症等疾病导致的手部功能丧失会严重影响日常生活。机器人康复提供了恢复手部功能的工具,而基于表面肌电 (sEMG) 的新方法能够根据用户的状况调整设备的出力,从而提高康复效果。本研究旨在使用一对 sEMG 传感器在中等包裹抓握过程中实现准确的力估计,从而解决对精确预测而言传感器需求不断增加的挑战。我们在两个前臂位置对 13 名受试者进行了 sEMG 测量,并通过手部测力计验证了结果。我们建立了灵活的信号处理步骤,从而在处理后的 sEMG 信号(代表有意义的肌肉活动)和抓握力之间产生了高峰值互相关。随后,通过灵敏度分析确定了有影响的参数。利用新颖的数据驱动 Koopman 算子理论方法和特定问题的升维技术,我们设计了一种从处理后的 sEMG 信号中估计和短期预测抓握力的方法。估计抓握力的加权平均绝对百分比误差 (wMAPE) 约为 5.5%,而预测时间范围为 0.5 秒的预测结果的 wMAPE 约为 17.9%。该方法在精确的电极定位方面证明了其稳健性,因为感测位置对误差指标的影响不显著。该算法执行速度极快,只需约 30 毫秒即可处理、估计和预测 0.5 秒的 sEMG 信号批次,从而便于实时实现。
人工智能和机器学习正越来越多地被用来代替人们的决策。过去,这种替代的理由之一是,机器与人不同,可以做到公平公正。但证据表明并非如此。我们首先探讨了算法可以替代人类以及算法不会产生偏见的想法。如果将这些说法视为公理,它们很快就会导致荒谬的结果。受此结果的启发,我们更深入地研究了这些口号,并发现了围绕“偏见”一词的模棱两可。我们诊断了三种在人们对算法偏见产生情绪反应时起作用的愤怒形式——智力上的、道德上的和政治上的。然后,我们提出了人工智能社区可以采取的解决偏见的三种实用方法,包括澄清围绕偏见的语言、开发用于智能系统的新审计方法,以及在这些系统中构建某些功能。最后,我们提供了一个关于算法偏见对话的道德准则,该准则可能可以转移到人工智能的其他领域。
将深度学习融入医学影像有望极大地推动诊断方法的发展,但它面临着泛化性的挑战。基于自监督学习的预训练模型解决了这些问题,并提高了数据效率。自然领域预训练模型在医学影像方面显示出巨大潜力,但系统地评估领域自适应,特别是使用自监督学习和参数高效微调的研究仍未得到充分探索。此外,很少有研究解决预训练模型微调过程中灾难性遗忘问题。我们使用自监督学习将 DINOv2 视觉 Transformer 适应于视网膜影像分类任务,并生成了两个名为 DINORET 和 BE DINORET 的新型预训练模型。公开可用的彩色眼底照片被用于模型开发和随后的微调,以进行糖尿病视网膜病变分期和青光眼检测。我们引入了块扩展作为一种新的领域自适应策略,并评估了模型的灾难性遗忘问题。模型以 RETFound(眼科领域最先进的预训练模型)为基准。DINORET 和 BE DINORET 在视网膜影像任务中表现出竞争力,其中块扩展模型在大多数数据集上取得了最高得分。块扩展成功地减轻了灾难性遗忘。我们的少样本学习研究表明,DINORET 和 BE DINORET 在数据效率方面优于 RETFound。本研究强调了使用自监督学习和块扩展将自然领域视觉模型适应于视网膜影像的潜力。BE DINORET 在不牺牲先前获得的能力的情况下提供强大的性能。我们的研究结果表明,这些方法可以使医疗机构为其患者群体开发定制的视觉模型,从而增强全球医疗保健的包容性。
为了确保合成数据的可证明隐私保证,人们将隐私措施(包括差分隐私技术)集成到合成数据生成中。然而,当生成式深度学习模型被要求生成真实数据时,尤其是在网络安全和医疗保健等关键领域,会遇到挑战。针对连续数据的生成式模型难以对具有领域约束的离散和非高斯特征进行建模。当训练数据集有限且缺乏多样性时,挑战会加剧。在这种情况下,生成式模型会创建重复敏感特征的合成数据,这会带来隐私风险。此外,生成式模型难以理解专业领域中的属性约束。这会导致生成不切实际的数据,影响下游的准确性。为了解决这些问题,本文提出了一种新的模型 KIPPS,该模型将知识图中的领域和监管知识注入生成式深度学习模型,以增强隐私保护合成数据生成。该新框架通过关于属性值的补充上下文来增强生成式模型的训练,并在训练过程中强制执行领域约束。这种额外的指导增强了模型生成逼真且符合领域约束的合成数据的能力。该模型在真实世界的数据集上进行了评估,特别是在网络安全和医疗保健领域,其中领域约束和规则增加了数据的复杂性。我们的实验评估了该模型相对于基准方法的隐私恢复能力和下游准确性,证明了它在复杂领域中平衡隐私保护和数据准确性的有效性。
本研究提出了一种针对视觉语言导航 (VLN) 任务的新型评估框架。该框架旨在更细致地诊断当前模型对各种指令类别的性能。该框架围绕任务的上下文无关文法 (CFG) 结构化。CFG 作为问题分解的基础,也是指令类别设计的核心前提。我们提出了一种借助大型语言模型 (LLMs) 的半自动 CFG 构造方法。然后,我们归纳并生成跨越五个主要指令类别(即方向改变、地标识别、区域识别、垂直移动和数字理解)的数据。我们对不同模型的分析揭示了显著的性能差异和反复出现的问题。数字理解的停滞、对方向概念的严重选择性偏差以及其他有趣的发现有助于未来语言引导导航系统的开发。
近年来,持续学习,一种预测环境可能随时间推移而演变的预测设置,已成为一个越来越受欢迎的研究领域,因为该框架旨在应对复杂的非平稳目标。学习此类目标需要可塑性,即神经网络能够根据不同的任务调整其预测的能力。最近的研究表明,在非平稳强化学习框架中,新任务上的可塑性损失与损失景观的锐度高度相关。我们探索了锐度正则化技术的应用,这些技术旨在寻找平滑的最小值,并因其在传统预测设置中的泛化能力而备受推崇,以努力对抗可塑性损失。我们的发现表明,此类技术对减少可塑性损失没有显着影响。
本文介绍了 SpoofCeleb,这是一个专为语音深度伪造检测 (SDD) 和抗欺骗自动说话人验证 (SASV) 而设计的数据集,利用来自真实世界条件的源数据和由文本到语音 (TTS) 系统生成的欺骗攻击,这些系统也使用相同的真实世界数据进行训练。稳健的识别系统需要在不同噪声水平的各种声学环境中记录的语音数据进行训练。然而,现有的数据集通常包含干净、高质量的录音(真实数据),这是 TTS 训练的要求;通常需要工作室质量或录制良好的朗读语音来训练 TTS 模型。现有的 SDD 数据集对于训练 SASV 模型的实用性也十分有限,因为说话人多样性不足。我们提出了 SpoofCeleb,它利用一个全自动管道处理 VoxCeleb1 数据集,将其转换为适合 TTS 训练的形式。我们随后训练了 23 个当代 TTS 系统。由此产生的 SpoofCeleb 数据集包含来自 1,251 名独特说话人的超过 250 万个语音片段,这些片段是在自然、真实世界的条件下收集的。该数据集包含精心划分的训练集、验证集和评估集,以及控制良好的实验协议。我们提供了 SDD 和 SASV 任务的基准结果。所有数据、协议和基准都在 https://jungjee.github.io/spoofceleb 公开提供。
人工智能领域在实现生物学上的合理性和计算效率方面面临着重大挑战,尤其是在视觉学习任务中。现有的卷积神经网络等人工神经网络依赖于反向传播和权重共享等技术,这些技术与大脑的自然信息处理方法不一致。为了解决这些问题,我们提出了记忆网络模型,该模型受生物学原理启发,避免了反向传播和卷积,并在单次传递中运行。这种方法能够实现快速高效的学习,模仿大脑在接触少量数据的情况下快速适应的能力。我们的实验表明,记忆网络能够实现高效且生物学上合理的学习,在 MNIST 等简单数据集上表现出强大的性能。然而,为了处理 CIFAR10 等更复杂的数据集,该模型还需要进一步改进,这突出了开发与生物过程紧密一致、同时保持计算效率的新算法和技术的必要性。