生成式AI正在改变我们与技术互动和消费内容的方式。在未来十年,AI技术将重塑我们在各种媒体中创作音频内容的方式,包括音乐、戏剧、电影、游戏、播客和短视频。在本论文中,我介绍了围绕音乐和音频生成式AI的三个主要研究方向:1)多轨音乐生成,2)辅助音乐创作工具,以及3)音频和音乐的多模态学习。通过我的研究,我旨在回答以下两个基本问题:1)AI如何帮助专业人士或业余爱好者创作音乐和音频内容?2)AI能否像人类学习音乐一样学习创作音乐?我的长期目标是降低音乐创作的门槛,并使音频内容创作民主化。
水下图像常常遭受严重的退化,导致视觉质量低和目标检测性能差。这项工作旨在评估最先进的图像增强模型,研究它们对水下目标检测的影响,并探索它们提高检测性能的潜力。为此,我们选择了涵盖主要增强类别的代表性水下图像增强模型,并将它们分别应用于两个最新的数据集:1)真实世界水下目标检测数据集 (RUOD),和 2)具有挑战性的水下植物检测数据集 (CUPDD)。在此之后,我们对增强图像进行了定性和定量分析,并开发了一个质量指标 (Q 指标) 来比较原始图像和增强图像的质量分布。随后,我们比较了几个 YOLO-NAS 检测模型的性能,这些模型分别在原始图像集和增强图像集上进行训练和测试。然后,我们进行了一项相关性研究,以检查增强指标与检测性能之间的关系。我们还分析了训练好的检测器的推理结果,展示了增强提高检测性能的情况,以及增强揭示了人工标注者遗漏的目标的情况。这项研究表明,尽管增强通常会降低检测性能,但在某些情况下仍然可以利用它来提高检测性能和人工标注的准确性。
本文探讨了对2022年2月24日爆发的俄乌战争期间空袭警报的探索性数据分析和预测分析方法。结果表明,不同地区警报之间存在关联性,并呈现出地理空间模式,这使得构建预测模型成为可能,该模型可以预测特定时间段内特定地区预计发生的警报。研究结果表明,特定地区的警报状态高度依赖于其邻近地区特征。季节性特征(如小时、星期几和月份)对于预测目标变量也至关重要。一些地区高度依赖时间特征,该特征等于数据集初始日期的天数。由此可以推断,空袭警报模式会随着时间推移而发生变化。
超维计算 (HDC) 能够在高维空间中高效地进行数据编码和处理,从而有利于机器学习和数据分析。然而,这些空间的利用不足可能导致过拟合和模型可靠性降低,尤其是在数据有限的系统中,这在医疗保健等需要鲁棒性和一致性性能的领域是一个关键问题。我们引入了 BoostHD,这是一种将提升算法应用于将超维空间划分为子空间的方法,从而创建了一个弱学习器集合。通过将提升算法与 HDC 集成,BoostHD 增强了性能和可靠性,超越了现有的 HDC 方法。我们的分析强调了高效利用超维空间以提高模型性能的重要性。在医疗保健数据集上的实验表明,BoostHD 的性能优于最先进的方法。在 WESAD 数据集上,其准确率达到了 98.37%,超过了随机森林、XGBoost 和 OnlineHD。BoostHD 还展示了优越的推理效率和稳定性,在数据不平衡和噪声下保持较高的准确率。在针对特定个人的评估中,其平均准确率达到了 96.19%,优于其他模型。通过解决提升算法和 HDC 的局限性,BoostHD 扩展了 HDC 在可靠性和精度至关重要的关键领域的适用性。
如今,车辆已能够在高速公路上自动驾驶,无人驾驶出租车也在主要城市运营,未来预计将出现更高级别的自动驾驶技术,并变得更加普遍。然而,从技术上讲,“五级”(L5)自动驾驶,即完全自主驾驶,尚未实现。要实现这一点,必须具备诸如全自动高速公路匝道入口等功能,并提供可证明的安全可靠的运行,以实现完全自主。我们对一种控制车辆前进动作以最大限度地减少合并(自身)车辆驶入高速公路交通流时与之发生碰撞的高速公路匝道功能进行了系统研究。我们采用博弈论多智能体 (MA) 方法来解决这个问题,并研究基于深度强化学习 (DRL) 的控制器的使用。MA DRL 的虚拟环境使用自博弈和模拟数据,其中合并车辆安全地学习在锥形合并过程中控制纵向位置。本文提出的工作扩展了现有工作,研究了两个以上车辆(智能体)的交互作用,并通过系统地扩展道路场景以包含更多交通车辆和自身车辆来实现。虽然之前关于两车场景的研究表明,在完全分散的、非协调的环境中,无碰撞控制器在理论上是不可能的,但我们通过实验证明,使用我们的方法学习的控制器在与理想的最佳控制器相比时几乎是理想的。
在材料科学领域,有效的文献检索系统对于促进研究至关重要。大型语言模型(LLM)中传统的检索增强生成(RAG)方法常常面临信息过时、幻觉、上下文限制导致的可解释性有限以及检索不准确等挑战。为了解决这些问题,图RAG通过集成图数据库来增强检索过程。我们提出的方法通过从句子中提取关键实体(称为MatIDs)来处理材料科学文献,然后利用这些实体查询外部维基百科知识库(KB)以获取更多相关信息。我们实现了一种基于代理的解析技术,以获得更详细的文档表示。我们改进的图RAG版本,即G-RAG,进一步利用图数据库来捕获这些实体之间的关系,从而提高检索准确性和上下文理解能力。这种增强的方案在需要精确信息检索的领域(如材料科学)中展现出显著的性能提升。
回答终端用户安全问题具有挑战性。虽然像GPT、LLAMA和Gemini这样的大型语言模型(LLM)远非完美无缺,但它们在回答各种非安全领域的问题方面已显示出潜力。我们通过定性评估3个流行的LLM对900个系统收集的终端用户安全问题,研究了LLM在终端用户安全领域的性能。虽然LLM展示了对终端用户安全信息的广泛的通用“知识”,但在各个LLM中都存在错误和局限性的模式,包括陈旧和不准确的答案,以及间接或无响应的沟通方式,所有这些都会影响接收到的信息质量。基于这些模式,我们提出了改进模型的方向,并建议用户在寻求安全方面的帮助时与LLM互动的策略。
在当今数字时代,各种网络活动产生的数据量巨大且不断增长。这些数据可能包含可用于改进网络安全措施的宝贵见解。然而,大部分数据未经分类且属于定性数据,这对传统的分析方法提出了重大挑战。聚类通过对相似数据点进行分组来帮助识别数据中隐藏的模式和结构,从而简化了威胁的识别和应对。聚类可以定义为一种数据挖掘 (DM) 方法,它使用相似性计算将数据集划分为多个类别。典型的聚类算法包括层次聚类、基于密度的聚类和划分聚类算法。本研究使用了 K 均值算法,这是一种流行的聚类技术。利用 K 均值算法,我们处理了两种不同类型的数据:首先,我们在使用 XG-Boost 算法完成聚合后,利用 K 均值算法收集数据。数据是利用 Kali Linux 环境、cicflowmeter 流量和 Putty 软件工具以及各种简单的攻击收集的。该方法有助于识别与已知攻击不同的新型攻击,并根据它们将展现的特征对其进行标记,因为网络威胁的动态特性意味着新型攻击经常出现,而这些攻击可能尚无标记数据。该模型对攻击进行了计数,并为每个攻击分配了编号。其次,我们尝试在 Kaggle 存储库中名为(物联网网络中的入侵检测)的现有数据集上进行了同样的工作,聚类模型运行良好,并正确检测了攻击数量,结果部分对此进行了展示。
在自动驾驶领域,开发和集成高度复杂且异构的系统是标准做法。现代车辆并非单体系统;相反,它们由各种硬件组件构成,每个组件运行其自身的软件系统。自动驾驶车辆包含许多独立组件,通常由不同且可能相互竞争的公司开发。这种多样性给认证过程带来了重大挑战,因为它需要对可能不公开其内部行为(黑盒)的组件进行认证。本文以一个自动驾驶系统的真实案例研究为例,确定其开发和集成过程中面临的关键开放性挑战,并探讨形式化验证技术如何应对这些挑战,以确保系统的可靠性和安全性。
异常检测 (AD) 是一项机器学习任务,它通过从正常的训练数据中学习模式来识别异常。在许多现实场景中,异常的严重程度各不相同,从风险较小的轻微异常到需要立即关注的严重异常。然而,现有的模型主要在二元环境中运行,并且它们产生的异常分数通常基于数据点与正常数据的偏差,这可能无法准确反映实际的严重程度。在本文中,我们通过做出三个关键贡献来解决这一差距。首先,我们提出了一种新颖的设置,即多级异常检测 (MAD),其中异常分数代表现实世界应用中异常的严重程度,并且我们强调了其在各个领域的多种应用。其次,我们引入了一个新的基准,MAD-Bench,它不仅评估模型检测异常的能力,还评估其异常分数反映严重程度的有效性。该基准包含多种类型的基线和涉及严重程度的现实世界应用。最后,我们对 MAD-Bench 进行了全面的性能分析。我们评估模型分配与严重程度一致的分数的能力,研究其在二元检测和多级检测中的性能之间的对应关系,并研究其鲁棒性。这项分析为改进 AD 模型以实现实际的严重程度对齐提供了关键见解。用于该基准的代码框架和数据集将公开可用。